Discrétisation de données

Exercices sur la création de classes de données avec pandas.

Objectifs

Explorer et manipuler des données
Créer des classes de données

Exercices

Amplitude fixe

Consignes

Créez une colonne dans le tableau pib en divisant la colonne PIB_hab en 3 catégories d’amplitude égale : faible < moyen < élevé. Dans quelle catégorie se trouve Neuchâtel ?
Combien de valeurs chacune des catégories contient-elle ?
Avancé: Que se passe-t-il si on créé 4 catégories d’amplitude égale ?

Astuce

# Amplitude fixe avec 3 catégories
pib['ampl_3'] = pd.cut(pib['PIB_hab'], bins=3, labels=['faible', 'moyen', 'élevé'])

pib[pib['Canton'] == "Neuchâtel"][['Canton', 'ampl_3']]
pib['ampl_3'].value_counts().sort_index()

# Amplitude fixe avec 4 catégories
pib['ampl_4'] = pd.cut(pib['PIB_hab'], bins=4)
pib['ampl_4'].value_counts().sort_index()

Effectifs fixes

Consignes

Créez une colonne dans le tableau pib en divisant la colonne PIB_hab en 3 catégories d’effectifs fixes : faible < moyen < élevé. Dans quelle catégorie se trouve Neuchâtel à présent ?
Combien de valeurs chacune des catégories contiennent-elles ?

Avancé: Seuils observés

Consignes

Considérez le graphique du PIB par habitants.
Créez une colonne dans le tableau pib en divisant la colonne PIB_hab en 3 catégories manuelles. Quelle répartition vous semblent la plus pertinente ?

Graphique