# Création des données pour le chapitre

In [1]:
from IPython.display import Markdown as md
from IPython.display import display, HTML
import pandas as pd
import ipywidgets as widgets
from pathlib import Path
from datetime import datetime
import locale
locale.setlocale(locale.LC_ALL, 'fr_FR.UTF-8')

'fr_FR.UTF-8'

Les données viennent de https://github.com/chris1610/pbpython/blob/master/data/2018_Sales_Total.xlsx

In [2]:
df = pd.read_excel('2018_Sales_Total.xlsx')
df = df.rename(columns={"Nom": "Vendeur"})

In [3]:
df.head()

Unnamed: 0,Numero de compte,Vendeur,Code,Prix,date,Produit
0,740150,Barton LLC,B1-20000,86.69,2018-01-01 07:21:51,Logiciel
1,714466,Trantow-Barrows,S2-77896,63.16,2018-01-01 10:00:47,Ordinateur
2,218895,Kulas Inc,B1-69924,90.7,2018-01-01 13:24:58,Logiciel
3,307599,"Kassulke, Ondricka and Metz",S1-65481,21.05,2018-01-01 15:05:22,Impression
4,412290,Jerde-Hilpert,S2-34077,83.21,2018-01-01 23:26:55,Ordinateur


Réduction des codes produits avec un type de produit

In [4]:
df.Code.unique()

array(['B1-20000', 'S2-77896', 'B1-69924', 'S1-65481', 'S2-34077',
       'B1-65551', 'S1-30248', 'S1-50961', 'S2-82423', 'S2-00301',
       'S2-23246', 'S2-10342', 'B1-53102', 'S1-06532', 'B1-50809',
       'S1-82801', 'B1-04202', 'S2-83881', 'S2-78676', 'B1-53636',
       'B1-38851', 'B1-86481', 'S1-93683', 'B1-33087', 'S1-27722',
       'B1-05914', 'B1-33364', 'S2-16558', 'S1-47412', 'S2-11481'],
      dtype=object)

In [5]:
df.apply(lambda x: x.Code[:2], axis=1).unique()

array(['B1', 'S2', 'S1'], dtype=object)

In [6]:
code_prod = {
    "B1": "Logiciel",
    "S1": "Impression",
    "S2": "Ordinateur"
}
df["Produit"] = df.apply(lambda x: code_prod[x.Code[:2]], axis=1)
df.head()

Unnamed: 0,Numero de compte,Vendeur,Code,Prix,date,Produit
0,740150,Barton LLC,B1-20000,86.69,2018-01-01 07:21:51,Logiciel
1,714466,Trantow-Barrows,S2-77896,63.16,2018-01-01 10:00:47,Ordinateur
2,218895,Kulas Inc,B1-69924,90.7,2018-01-01 13:24:58,Logiciel
3,307599,"Kassulke, Ondricka and Metz",S1-65481,21.05,2018-01-01 15:05:22,Impression
4,412290,Jerde-Hilpert,S2-34077,83.21,2018-01-01 23:26:55,Ordinateur


Réduction du nombre de noms

In [7]:
uniq_names = df.Vendeur.unique()
uniq_names

array(['Barton LLC', 'Trantow-Barrows', 'Kulas Inc',
       'Kassulke, Ondricka and Metz', 'Jerde-Hilpert'], dtype=object)

In [8]:
nbr_names = 5
names = {orig: uniq_names[i%nbr_names] for (i, orig) in enumerate(uniq_names)}
names
df["Vendeur"] = df.apply(lambda x: names[x.Vendeur], axis=1)
df.head()

Unnamed: 0,Numero de compte,Vendeur,Code,Prix,date,Produit
0,740150,Barton LLC,B1-20000,86.69,2018-01-01 07:21:51,Logiciel
1,714466,Trantow-Barrows,S2-77896,63.16,2018-01-01 10:00:47,Ordinateur
2,218895,Kulas Inc,B1-69924,90.7,2018-01-01 13:24:58,Logiciel
3,307599,"Kassulke, Ondricka and Metz",S1-65481,21.05,2018-01-01 15:05:22,Impression
4,412290,Jerde-Hilpert,S2-34077,83.21,2018-01-01 23:26:55,Ordinateur


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1500 entries, 0 to 1499
Data columns (total 6 columns):
Numero de compte    1500 non-null int64
Vendeur             1500 non-null object
Code                1500 non-null object
Prix                1500 non-null float64
date                1500 non-null datetime64[ns]
Produit             1500 non-null object
dtypes: datetime64[ns](1), float64(1), int64(1), object(3)
memory usage: 70.4+ KB


In [10]:
df.to_excel("2018_Sales_Total.xlsx", index=False)

## Données à traiter à la main - 10 premiers jours de janvier

In [11]:
hand_df = df.loc[df.date < "2018-01-11"]
hand_df.head()

Unnamed: 0,Numero de compte,Vendeur,Code,Prix,date,Produit
0,740150,Barton LLC,B1-20000,86.69,2018-01-01 07:21:51,Logiciel
1,714466,Trantow-Barrows,S2-77896,63.16,2018-01-01 10:00:47,Ordinateur
2,218895,Kulas Inc,B1-69924,90.7,2018-01-01 13:24:58,Logiciel
3,307599,"Kassulke, Ondricka and Metz",S1-65481,21.05,2018-01-01 15:05:22,Impression
4,412290,Jerde-Hilpert,S2-34077,83.21,2018-01-01 23:26:55,Ordinateur


In [12]:
hand_df.to_excel("201801_sales.xlsx", index=False)

### Quelques tableau d'effectifs et de fréquences

In [124]:
count = lambda x: x.count()
count.__name__ = "Effectif"

#freq = lambda x: f"{x.count()/hand_df['Prix'].count():.2%}"
#freq.__name__ = "Fréquence marginale"

def freq(total):
    func = lambda x: f"{x.count()/total:.2%}"
    func.__name__ = "Fréquence marginale"
    return func

Par rapport aux vendeurs

In [125]:
pt_sellers = pd.pivot_table(hand_df,
              index="Vendeur",
              values="Code",
              aggfunc=[count, freq(hand_df["Prix"].count())],
              margins=True,
              margins_name="Total")
pt_sellers.columns = pt_sellers.columns.droplevel(1)
pt_sellers

Unnamed: 0_level_0,Effectif,Fréquence marginale
Vendeur,Unnamed: 1_level_1,Unnamed: 2_level_1
Barton LLC,8,19.51%
Jerde-Hilpert,7,17.07%
"Kassulke, Ondricka and Metz",5,12.20%
Kulas Inc,6,14.63%
Trantow-Barrows,15,36.59%
Total,41,100.00%


Par rapport aux Produits

In [126]:
pt_sellers = pd.pivot_table(hand_df,
              index="Produit",
              values="Code",
              aggfunc=[count, freq(hand_df["Prix"].count())],
              margins=True,
              margins_name="Total"
                           )
pt_sellers.columns = pt_sellers.columns.droplevel(1)
pt_sellers

Unnamed: 0_level_0,Effectif,Fréquence marginale
Produit,Unnamed: 1_level_1,Unnamed: 2_level_1
Impression,12,29.27%
Logiciel,13,31.71%
Ordinateur,16,39.02%
Total,41,100.00%


Croisement de ventes entre vendeurs et produits

In [37]:
pd.pivot_table(hand_df,
               index="Vendeur",
               columns = "Produit",
               values="Code",
               aggfunc="count",
               margins=True,
              margins_name="Total"
              )

Produit,Impression,Logiciel,Ordinateur,Total
Vendeur,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Barton LLC,3.0,4.0,1.0,8
Jerde-Hilpert,2.0,1.0,4.0,7
"Kassulke, Ondricka and Metz",1.0,,4.0,5
Kulas Inc,2.0,2.0,2.0,6
Trantow-Barrows,4.0,6.0,5.0,15
Total,12.0,13.0,16.0,41


In [38]:
print(pd.pivot_table(hand_df,
               index="Vendeur",
               columns = "Produit",
               values="Code",
               aggfunc="count",
               margins=True,
              margins_name="Total"
              )\
      .to_latex(
    float_format="{:0.0f}".format,
    bold_rows=True
)
     )

\begin{tabular}{lrrrr}
\toprule
\textbf{Produit} &  Impression &  Logiciel &  Ordinateur &  Total \\
\textbf{Vendeur                    } &             &           &             &        \\
\midrule
\textbf{Barton LLC                 } &           3 &         4 &           1 &      8 \\
\textbf{Jerde-Hilpert              } &           2 &         1 &           4 &      7 \\
\textbf{Kassulke, Ondricka and Metz} &           1 &       nan &           4 &      5 \\
\textbf{Kulas Inc                  } &           2 &         2 &           2 &      6 \\
\textbf{Trantow-Barrows            } &           4 &         6 &           5 &     15 \\
\textbf{Total                      } &          12 &        13 &          16 &     41 \\
\bottomrule
\end{tabular}



Fréquences marginales

In [127]:
pd.pivot_table(hand_df,
               index="Vendeur",
               columns = "Produit",
               values="Code",
               aggfunc=freq(hand_df["Prix"].count()),
               margins=True,
              margins_name="Total"
              )

Produit,Impression,Logiciel,Ordinateur,Total
Vendeur,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Barton LLC,7.32%,9.76%,2.44%,19.51%
Jerde-Hilpert,4.88%,2.44%,9.76%,17.07%
"Kassulke, Ondricka and Metz",2.44%,,9.76%,12.20%
Kulas Inc,4.88%,4.88%,4.88%,14.63%
Trantow-Barrows,9.76%,14.63%,12.20%,36.59%
Total,29.27%,31.71%,39.02%,100.00%


## Ventes sur le mois de Février

In [19]:
feb_df = df.loc[(df.date < "2018-03-01") & (df.date >= "2018-02-01")]
feb_df.head()

Unnamed: 0,Numero de compte,Vendeur,Code,Prix,date,Produit
134,383080,Trantow-Barrows,B1-20000,33.69,2018-02-01 09:04:59,Logiciel
135,412290,Jerde-Hilpert,S1-27722,21.12,2018-02-01 11:51:46,Impression
136,412290,Jerde-Hilpert,B1-86481,35.99,2018-02-01 17:24:32,Logiciel
137,412290,Jerde-Hilpert,B1-20000,78.9,2018-02-01 19:56:48,Logiciel
138,672390,Trantow-Barrows,S1-06532,55.82,2018-02-02 03:45:20,Impression


In [60]:
pd.pivot_table(feb_df,
               index="Vendeur",
               columns = "Produit",
               values="Code",
               aggfunc="count",
               margins=True,
              margins_name="Total"
              )

Produit,Impression,Logiciel,Ordinateur,Total
Vendeur,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Barton LLC,5,12,2,19
Jerde-Hilpert,6,5,6,17
"Kassulke, Ondricka and Metz",6,9,5,20
Kulas Inc,6,15,3,24
Trantow-Barrows,13,8,7,28
Total,36,49,23,108


In [61]:
print(pd.pivot_table(feb_df,
               index="Vendeur",
               columns = "Produit",
               values="Code",
               aggfunc="count",
               margins=True,
              margins_name="Total"
              )\
      .to_latex(
    float_format="{:0.0f}".format,
    bold_rows=True
)
     )

\begin{tabular}{lrrrr}
\toprule
\textbf{Produit} &  Impression &  Logiciel &  Ordinateur &  Total \\
\textbf{Vendeur                    } &             &           &             &        \\
\midrule
\textbf{Barton LLC                 } &           5 &        12 &           2 &     19 \\
\textbf{Jerde-Hilpert              } &           6 &         5 &           6 &     17 \\
\textbf{Kassulke, Ondricka and Metz} &           6 &         9 &           5 &     20 \\
\textbf{Kulas Inc                  } &           6 &        15 &           3 &     24 \\
\textbf{Trantow-Barrows            } &          13 &         8 &           7 &     28 \\
\textbf{Total                      } &          36 &        49 &          23 &    108 \\
\bottomrule
\end{tabular}



Tableau des fréquences marginales

In [128]:
pd.pivot_table(feb_df,
               index="Vendeur",
               columns = "Produit",
               values="Code",
               aggfunc=freq(feb_df["Prix"].count()),
               margins=True,
              margins_name="Total"
              )

Produit,Impression,Logiciel,Ordinateur,Total
Vendeur,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Barton LLC,4.63%,11.11%,1.85%,17.59%
Jerde-Hilpert,5.56%,4.63%,5.56%,15.74%
"Kassulke, Ondricka and Metz",5.56%,8.33%,4.63%,18.52%
Kulas Inc,5.56%,13.89%,2.78%,22.22%
Trantow-Barrows,12.04%,7.41%,6.48%,25.93%
Total,33.33%,45.37%,21.30%,100.00%


In [132]:
print(pd.pivot_table(feb_df,
               index="Vendeur",
               columns = "Produit",
               values="Code",
               aggfunc=freq(feb_df["Prix"].count()),
               margins=True,
              margins_name="Total"
              )\
      .to_latex(
    float_format="{:0.0f}".format,
    bold_rows=True
)
     )

\begin{tabular}{lllll}
\toprule
\textbf{Produit} & Impression & Logiciel & Ordinateur &    Total \\
\textbf{Vendeur                    } &            &          &            &          \\
\midrule
\textbf{Barton LLC                 } &      4.63\% &   11.11\% &      1.85\% &   17.59\% \\
\textbf{Jerde-Hilpert              } &      5.56\% &    4.63\% &      5.56\% &   15.74\% \\
\textbf{Kassulke, Ondricka and Metz} &      5.56\% &    8.33\% &      4.63\% &   18.52\% \\
\textbf{Kulas Inc                  } &      5.56\% &   13.89\% &      2.78\% &   22.22\% \\
\textbf{Trantow-Barrows            } &     12.04\% &    7.41\% &      6.48\% &   25.93\% \\
\textbf{Total                      } &     33.33\% &   45.37\% &     21.30\% &  100.00\% \\
\bottomrule
\end{tabular}



Tableau des fréquences conditionnelles au vendeur

In [143]:
vp_df = feb_df.groupby(["Vendeur", "Produit"])["Code"]\
            .agg(len)\
            .unstack()\
            .assign(
                Total=lambda x: x.T.sum()
            )\
            .apply(
                lambda x: x / x.T.Total,
                axis=1
            )
vp_df.style.format("{:.2%}")

Produit,Impression,Logiciel,Ordinateur,Total
Vendeur,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Barton LLC,26.32%,63.16%,10.53%,100.00%
Jerde-Hilpert,35.29%,29.41%,35.29%,100.00%
"Kassulke, Ondricka and Metz",30.00%,45.00%,25.00%,100.00%
Kulas Inc,25.00%,62.50%,12.50%,100.00%
Trantow-Barrows,46.43%,28.57%,25.00%,100.00%


In [144]:
print(vp_df.to_latex(
    float_format="{:.2%}".format,
    bold_rows=True
))

\begin{tabular}{lrrrr}
\toprule
\textbf{Produit} &  Impression &  Logiciel &  Ordinateur &   Total \\
\textbf{Vendeur                    } &             &           &             &         \\
\midrule
\textbf{Barton LLC                 } &      26.32\% &    63.16\% &      10.53\% & 100.00\% \\
\textbf{Jerde-Hilpert              } &      35.29\% &    29.41\% &      35.29\% & 100.00\% \\
\textbf{Kassulke, Ondricka and Metz} &      30.00\% &    45.00\% &      25.00\% & 100.00\% \\
\textbf{Kulas Inc                  } &      25.00\% &    62.50\% &      12.50\% & 100.00\% \\
\textbf{Trantow-Barrows            } &      46.43\% &    28.57\% &      25.00\% & 100.00\% \\
\bottomrule
\end{tabular}



Tableau des fréquences conditionnelles au produit

In [145]:
vp_df = feb_df.groupby(["Produit", "Vendeur"])["Code"]\
            .agg(len)\
            .unstack()\
            .assign(
                Total=lambda x: x.T.sum()
            )\
            .apply(
                lambda x: x / x.T.Total,
                axis=1
            )
vp_df.T.style.format("{:.2%}")

Produit,Impression,Logiciel,Ordinateur
Vendeur,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Barton LLC,13.89%,24.49%,8.70%
Jerde-Hilpert,16.67%,10.20%,26.09%
"Kassulke, Ondricka and Metz",16.67%,18.37%,21.74%
Kulas Inc,16.67%,30.61%,13.04%
Trantow-Barrows,36.11%,16.33%,30.43%
Total,100.00%,100.00%,100.00%


In [146]:
print(vp_df.T.to_latex(
    float_format="{:.2%}".format,
    bold_rows=True
))

\begin{tabular}{lrrr}
\toprule
\textbf{Produit} &  Impression &  Logiciel &  Ordinateur \\
\textbf{Vendeur                    } &             &           &             \\
\midrule
\textbf{Barton LLC                 } &      13.89\% &    24.49\% &       8.70\% \\
\textbf{Jerde-Hilpert              } &      16.67\% &    10.20\% &      26.09\% \\
\textbf{Kassulke, Ondricka and Metz} &      16.67\% &    18.37\% &      21.74\% \\
\textbf{Kulas Inc                  } &      16.67\% &    30.61\% &      13.04\% \\
\textbf{Trantow-Barrows            } &      36.11\% &    16.33\% &      30.43\% \\
\textbf{Total                      } &     100.00\% &   100.00\% &     100.00\% \\
\bottomrule
\end{tabular}



## Ventes sur le mois de Mars

In [22]:
march_df = df.loc[(df.date < "2018-04-01") & (df.date >= "2018-03-01")]
march_df.head()

Unnamed: 0,Numero de compte,Vendeur,Code,Prix,date,Produit
242,163416,Jerde-Hilpert,S1-30248,65.03,2018-03-01 16:07:40,Impression
243,527099,Jerde-Hilpert,S2-82423,76.21,2018-03-01 17:18:01,Ordinateur
244,527099,Jerde-Hilpert,B1-50809,70.78,2018-03-01 18:53:09,Logiciel
245,737550,Trantow-Barrows,B1-50809,50.11,2018-03-01 23:47:17,Logiciel
246,688981,"Kassulke, Ondricka and Metz",B1-86481,97.16,2018-03-02 01:46:44,Logiciel


Croisement de ventes entre vendeurs et produits

In [23]:
pd.pivot_table(march_df,
               index="Vendeur",
               columns = "Produit",
               values="Code",
               aggfunc="count",
               margins=True,
              margins_name="Total"
              )

Produit,Impression,Logiciel,Ordinateur,Total
Vendeur,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Barton LLC,7,7,8,22
Jerde-Hilpert,9,13,9,31
"Kassulke, Ondricka and Metz",6,12,12,30
Kulas Inc,13,5,13,31
Trantow-Barrows,11,11,6,28
Total,46,48,48,142


In [24]:
print(pd.pivot_table(march_df,
               index="Vendeur",
               columns = "Produit",
               values="Code",
               aggfunc="count",
               margins=True,
              margins_name="Total"
              )\
      .to_latex(
    float_format="{:0.0f}".format,
    bold_rows=True
)
     )

\begin{tabular}{lrrrr}
\toprule
\textbf{Produit} &  Impression &  Logiciel &  Ordinateur &  Total \\
\textbf{Vendeur                    } &             &           &             &        \\
\midrule
\textbf{Barton LLC                 } &           7 &         7 &           8 &     22 \\
\textbf{Jerde-Hilpert              } &           9 &        13 &           9 &     31 \\
\textbf{Kassulke, Ondricka and Metz} &           6 &        12 &          12 &     30 \\
\textbf{Kulas Inc                  } &          13 &         5 &          13 &     31 \\
\textbf{Trantow-Barrows            } &          11 &        11 &           6 &     28 \\
\textbf{Total                      } &          46 &        48 &          48 &    142 \\
\bottomrule
\end{tabular}



Fréquences marginales

In [25]:
pd.pivot_table(march_df,
               index="Vendeur",
               columns = "Produit",
               values="Code",
               aggfunc=freq,
               margins=True,
              margins_name="Total"
              )

Produit,Impression,Logiciel,Ordinateur,Total
Vendeur,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Barton LLC,17.07%,17.07%,19.51%,53.66%
Jerde-Hilpert,21.95%,31.71%,21.95%,75.61%
"Kassulke, Ondricka and Metz",14.63%,29.27%,29.27%,73.17%
Kulas Inc,31.71%,12.20%,31.71%,75.61%
Trantow-Barrows,26.83%,26.83%,14.63%,68.29%
Total,112.20%,117.07%,117.07%,346.34%


##  Et les 2 en même temps?

In [26]:
both_df = df.loc[(df.date < "2018-04-01") & (df.date >= "2018-02-01")].assign(
    Mois=lambda x: x.date.dt.strftime("%B")
)
both_df.head()

Unnamed: 0,Numero de compte,Vendeur,Code,Prix,date,Produit,Mois
134,383080,Trantow-Barrows,B1-20000,33.69,2018-02-01 09:04:59,Logiciel,février
135,412290,Jerde-Hilpert,S1-27722,21.12,2018-02-01 11:51:46,Impression,février
136,412290,Jerde-Hilpert,B1-86481,35.99,2018-02-01 17:24:32,Logiciel,février
137,412290,Jerde-Hilpert,B1-20000,78.9,2018-02-01 19:56:48,Logiciel,février
138,672390,Trantow-Barrows,S1-06532,55.82,2018-02-02 03:45:20,Impression,février


In [29]:
pd.pivot_table(both_df,
               index="Vendeur",
               columns = ["Mois","Produit"],
               values="Code",
               aggfunc="count",
               #margins=True,
               #margins_name="Total"
              )

Mois,février,février,février,mars,mars,mars
Produit,Impression,Logiciel,Ordinateur,Impression,Logiciel,Ordinateur
Vendeur,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Barton LLC,5,12,2,7,7,8
Jerde-Hilpert,6,5,6,9,13,9
"Kassulke, Ondricka and Metz",6,9,5,6,12,12
Kulas Inc,6,15,3,13,5,13
Trantow-Barrows,13,8,7,11,11,6


In [28]:
print(pd.pivot_table(both_df,
               index="Vendeur",
               columns = ["Mois","Produit"],
               values="Code",
               aggfunc="count",
               #margins=True,
               #margins_name="Total"
              )\
.to_latex(
    float_format="{:0.0f}".format,
    bold_rows=True
)
     )

\begin{tabular}{lrrrrrr}
\toprule
\textbf{Mois} & \multicolumn{3}{l}{février} & \multicolumn{3}{l}{mars} \\
\textbf{Produit} & Impression & Logiciel & Ordinateur & Impression & Logiciel & Ordinateur \\
\textbf{Vendeur                    } &            &          &            &            &          &            \\
\midrule
\textbf{Barton LLC                 } &          5 &       12 &          2 &          7 &        7 &          8 \\
\textbf{Jerde-Hilpert              } &          6 &        5 &          6 &          9 &       13 &          9 \\
\textbf{Kassulke, Ondricka and Metz} &          6 &        9 &          5 &          6 &       12 &         12 \\
\textbf{Kulas Inc                  } &          6 &       15 &          3 &         13 &        5 &         13 \\
\textbf{Trantow-Barrows            } &         13 &        8 &          7 &         11 &       11 &          6 \\
\bottomrule
\end{tabular}

