Cours 3 : Principes de la classification
Introduction
Les objectifs de ce cours sont :
- Comprendre la nature générale d’une procédure de classification non supervisée
- Construire une matrice de dissimilarité à partir d’un tableau à 1, 2 ou k dimension
- Appliquer la procédure k-means
- Construire une classification ascendante hiérarchique à l’aide du critère de Ward
- Comprendre le lien entre ACP et CAH
La classification consiste d’une manière générale à regrouper dans une même classe des individus qui se ressemblent et à séparer dans des classes différentes ceux qui sont différents. Ce problème très général est au coeur même de toute démarche scientifique et il soulève des questions épistémologiques et philosophiques fondamentales qui dépassent le cadre de cet enseignement. Nous nous limiterons ici à poser le problème de la classification dans le cadre de procédures statistiques appliquées à des variables de type quantitatif continu. Nous montrerons que le problème posé est alors celui de la recherche d’une classification non supervisée c’est-à-dire la découverte de ressemblances entre des individus en fonction de critères objectivement reproductibles.
Une dimension
Considérons à titre de premier exemple la consommation moyenne d’alcool (mesurée en kCal/pers/j) de 9 régions d’Europe et d’Afrique
region | Alcool | |
---|---|---|
1 | Afrique australe | 101 |
2 | Afrique centrale | 39 |
3 | Afrique occidentale | 21 |
4 | Afrique orientale | 35 |
5 | Afrique septentrionale | 4 |
6 | Europe méridionale | 145 |
7 | Europe occidentale | 176 |
8 | Europe orientale | 160 |
9 | Europe septentrionale | 146 |
Essayons de répondre à des questions d’abord à des questions simples comme :
- Q1 : quelles sont les deux régions les plus dissemblantes ?
- Q2 :l’Afrique Occidentale ressemble-t-elle plus à l’Afrique septentrionale ou à l’Afrique Australe ?
Puis à des questions plus complexes comme :
Q3 : Quelle est la meilleure partition en deux classes ?
Q4 : Quelle est la meilleure partition en k classes ?
La question Q1 est la plus simple et sa réponse ne devrait pas susciter de débat. sachant que la valeur miniumum est de 4 et la valeur maximale de 176, on peut conclure que la plus grande différence est observée entre l’Afrique septentrionale (point n°5) et l’Europe occidentale (point n°7). On peut visualiser leuer éloignement à l’aide d’une figure :
- La question Q2 est en revanche moins simple qu’il n’y paraît car elle peut appeler des réponses différentes selon que l’on décide d’utiliser des différences absolues ou des différences relatives entre les régions.
Distance absolue
Si l’on raisonne en valeur absolue, nous allons construire une matrice de dissimilarité \(D_{abs}\) définie par :
\(D_{abs}(i,j) = \lvert{X_i-X_j}\rvert\)
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
---|---|---|---|---|---|---|---|---|---|
1. Afrique australe | 0 | 62 | 80 | 66 | 97 | 44 | 75 | 59 | 45 |
2. Afrique centrale | 62 | 0 | 18 | 4 | 35 | 106 | 137 | 121 | 107 |
3. Afrique occidentale | 80 | 18 | 0 | 14 | 17 | 124 | 155 | 139 | 125 |
4. Afrique orientale | 66 | 4 | 14 | 0 | 31 | 110 | 141 | 125 | 111 |
5. Afrique septentrionale | 97 | 35 | 17 | 31 | 0 | 141 | 172 | 156 | 142 |
6. Europe méridionale | 44 | 106 | 124 | 110 | 141 | 0 | 31 | 15 | 1 |
7. Europe occidentale | 75 | 137 | 155 | 141 | 172 | 31 | 0 | 16 | 30 |
8. Europe orientale | 59 | 121 | 139 | 125 | 156 | 15 | 16 | 0 | 14 |
9. Europe septentrionale | 45 | 107 | 125 | 111 | 142 | 1 | 30 | 14 | 0 |
On serait alors tenté de dire que l’Afrique occidentale ressemble plus à l’Afrique septentrionale qu’à l’Afrique Australe puisque les distances observées sont de 17 dans le premier cas et de 80 dans le second.
Distance relative
Mais on pourrait aussi considérer la distance relative en effectuant pour chaque paire de valeur le rapport entre le maximum et le maximum. Soit la matrice de distance relative \(D_{rel}\) définie par :
\(D_{rel}(i,j) = \frac{max(X_i,X_j)}{min(X_i,X_j)}\)
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
---|---|---|---|---|---|---|---|---|---|
1. Afrique australe | 1.00 | 2.59 | 4.81 | 2.89 | 25.25 | 1.44 | 1.74 | 1.58 | 1.45 |
2. Afrique centrale | 2.59 | 1.00 | 1.86 | 1.11 | 9.75 | 3.72 | 4.51 | 4.10 | 3.74 |
3. Afrique occidentale | 4.81 | 1.86 | 1.00 | 1.67 | 5.25 | 6.90 | 8.38 | 7.62 | 6.95 |
4. Afrique orientale | 2.89 | 1.11 | 1.67 | 1.00 | 8.75 | 4.14 | 5.03 | 4.57 | 4.17 |
5. Afrique septentrionale | 25.25 | 9.75 | 5.25 | 8.75 | 1.00 | 36.25 | 44.00 | 40.00 | 36.50 |
6. Europe méridionale | 1.44 | 3.72 | 6.90 | 4.14 | 36.25 | 1.00 | 1.21 | 1.10 | 1.01 |
7. Europe occidentale | 1.74 | 4.51 | 8.38 | 5.03 | 44.00 | 1.21 | 1.00 | 1.10 | 1.21 |
8. Europe orientale | 1.58 | 4.10 | 7.62 | 4.57 | 40.00 | 1.10 | 1.10 | 1.00 | 1.10 |
9. Europe septentrionale | 1.45 | 3.74 | 6.95 | 4.17 | 36.50 | 1.01 | 1.21 | 1.10 | 1.00 |
On aboutit désormais à une conclusion inverse. En effet le rapport de consommation d’alcool est de 1 à 4.81 dans le cas de l’Afrique australe et de 1 à 5.25 dans le cas del’Afrique septentrionale.
Distance logarithmique
On aurait pu aboutir à la même conclusion en calculant les différences absolues entre les logarithmes des valeurs respectives de Xi et Xj soit la matrice \(D_{log}\) :
\(D_{log}(i,j) = \lvert{log(X_i)-log(X_j)}\rvert\)
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
---|---|---|---|---|---|---|---|---|---|
1. Afrique australe | 0.00 | 0.95 | 1.57 | 1.06 | 3.23 | 0.36 | 0.56 | 0.46 | 0.37 |
2. Afrique centrale | 0.95 | 0.00 | 0.62 | 0.11 | 2.28 | 1.31 | 1.51 | 1.41 | 1.32 |
3. Afrique occidentale | 1.57 | 0.62 | 0.00 | 0.51 | 1.66 | 1.93 | 2.13 | 2.03 | 1.94 |
4. Afrique orientale | 1.06 | 0.11 | 0.51 | 0.00 | 2.17 | 1.42 | 1.62 | 1.52 | 1.43 |
5. Afrique septentrionale | 3.23 | 2.28 | 1.66 | 2.17 | 0.00 | 3.59 | 3.78 | 3.69 | 3.60 |
6. Europe méridionale | 0.36 | 1.31 | 1.93 | 1.42 | 3.59 | 0.00 | 0.19 | 0.10 | 0.01 |
7. Europe occidentale | 0.56 | 1.51 | 2.13 | 1.62 | 3.78 | 0.19 | 0.00 | 0.10 | 0.19 |
8. Europe orientale | 0.46 | 1.41 | 2.03 | 1.52 | 3.69 | 0.10 | 0.10 | 0.00 | 0.09 |
9. Europe septentrionale | 0.37 | 1.32 | 1.94 | 1.43 | 3.60 | 0.01 | 0.19 | 0.09 | 0.00 |
Ce résultat est logique si on se rappelle que :
\(log(\frac{X_i}{X_j}) = log(X_i) - log(X_j)\)
Les valeurs affichées dans cette troisième matrice ne sont donc rien d’autre que les logarithmes des valeurs de la seconde matrice.
Distance euclidienne (au carré)
Présentons pour finir une quatrième matrice de distance correspondant au carré des différences entre les valeurs que nous nommerons distance euclidienne au carré :
\(D_{euc}^2(i,j) = (X_i-X_j)^2\)
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
---|---|---|---|---|---|---|---|---|---|
1. Afrique australe | 0 | 3844 | 6400 | 4356 | 9409 | 1936 | 5625 | 3481 | 2025 |
2. Afrique centrale | 3844 | 0 | 324 | 16 | 1225 | 11236 | 18769 | 14641 | 11449 |
3. Afrique occidentale | 6400 | 324 | 0 | 196 | 289 | 15376 | 24025 | 19321 | 15625 |
4. Afrique orientale | 4356 | 16 | 196 | 0 | 961 | 12100 | 19881 | 15625 | 12321 |
5. Afrique septentrionale | 9409 | 1225 | 289 | 961 | 0 | 19881 | 29584 | 24336 | 20164 |
6. Europe méridionale | 1936 | 11236 | 15376 | 12100 | 19881 | 0 | 961 | 225 | 1 |
7. Europe occidentale | 5625 | 18769 | 24025 | 19881 | 29584 | 961 | 0 | 256 | 900 |
8. Europe orientale | 3481 | 14641 | 19321 | 15625 | 24336 | 225 | 256 | 0 | 196 |
9. Europe septentrionale | 2025 | 11449 | 15625 | 12321 | 20164 | 1 | 900 | 196 | 0 |
A première vue cette quatrième mesure de dissimilarité n’a pas grand intérêt puisqu’elle ne fait que reprendre les distances absolues en renforçant leur effet. La distance entre Afrique occidentale et Afrique australe est désormais de \(80^2 = 6400\) tandis que celle entre Afrique occidentale et Afrique septentrionale est de \(17^2 = 289\).
En réalité, cette dernière mesure de distance est l’une des plus utilisée dans les méthodes de classification car elle permet d’établir un lien entre la notion de dissimilarité et la notion de variance. La somme de la matrice des distances euclidiennes au carré est en effet proportionelle à la variance de la variable X puisque :
\({var}(X) = \frac{1}{n-1}\sum_{i=1}^n{(X_i-\overline{X})^2} = \frac{1}{2.n.(n-1)}\sum_{i=1}^n\sum_{j=1}^n{(X_i-X_j)^2}\)
Ce que l’on peut vérifier facilement en calculant la variance de notre indicateur (4541.111) et en la comparant au total de la matrice des distances euclidiennes au carré (653920). Puis en effectuant le calcul \(4541.111 \times 9 \times 8 \times 2 = 653920\)
Partition optimale en deux classes
La recherche d’une partition optimale en deux classes dans un espace à une dimension est relativement simple mais elle impose de se fixer une règle précise de décision, c’est-à-dire un critère de performance à optimiser. D’une manière générale, ce critère devra répondre à la défintion proposée en introduction à savoir :
- regrouper les unités qui se ressemblent le plus entre elles
- séparer les unités qui sont les plus différentes entre elles.
Au vu de la distribution de notre variable, il semble assez évident que nous allons regrouper ensemble les quatres régions d’Europe (n°6,7,8,9) à forte consommation d’alcool et les quatre régions d’Afrique (n°2,3,4,5) à faible consommation. Mais on peut hésiter sur l’affectation de la région n°1 qui se situe à peu près à mi-chemin entre les deux groupes. Faut-il couper en A (trait rouge) ou en B (trait bleu) ?
Une manière statistique de trancher entre les deux solutions consiste à utiliser l’analyse de variance et de tester la part de variance expliquée par un modèle rattachant le point central soit à l’Europe (on coupe en A), soit à l’Afrique (on coupe en B). On construit donc le tableau suivant :
region | Alcool | Classes_2A | Classes_2B |
---|---|---|---|
Afrique australe | 101 | CL2 | CL1 |
Afrique centrale | 39 | CL1 | CL1 |
Afrique occidentale | 21 | CL1 | CL1 |
Afrique orientale | 35 | CL1 | CL1 |
Afrique septentrionale | 4 | CL1 | CL1 |
Europe méridionale | 145 | CL2 | CL2 |
Europe occidentale | 176 | CL2 | CL2 |
Europe orientale | 160 | CL2 | CL2 |
Europe septentrionale | 146 | CL2 | CL2 |
Call:
lm(formula = don$Alcool ~ don$Classes_2A)
Residuals:
Min 1Q Median 3Q Max
-44.60 -3.75 0.40 14.25 30.40
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 24.75 11.76 2.104 0.07342 .
don$Classes_2ACL2 120.85 15.78 7.658 0.00012 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 23.52 on 7 degrees of freedom
Multiple R-squared: 0.8934, Adjusted R-squared: 0.8781
F-statistic: 58.64 on 1 and 7 DF, p-value: 0.0001204
Analysis of Variance Table
Response: don$Alcool
Df Sum Sq Mean Sq F value Pr(>F)
don$Classes_2A 1 32455 32455 58.644 0.0001204 ***
Residuals 7 3874 553
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Call:
lm(formula = don$Alcool ~ don$Classes_2B)
Residuals:
Min 1Q Median 3Q Max
-36.00 -11.75 -5.00 3.25 61.00
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 40.00 13.14 3.045 0.018708 *
don$Classes_2BCL2 116.75 19.70 5.926 0.000584 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 29.37 on 7 degrees of freedom
Multiple R-squared: 0.8338, Adjusted R-squared: 0.81
F-statistic: 35.11 on 1 and 7 DF, p-value: 0.0005843
Analysis of Variance Table
Response: don$Alcool
Df Sum Sq Mean Sq F value Pr(>F)
don$Classes_2B 1 30290.1 30290.1 35.112 0.0005843 ***
Residuals 7 6038.8 862.7
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
L’analyse des résultats montre que la solution A est la meilleure dans la mesure où elle a boutit à 89.4% de variance expliquée (donc interclasse) et 10.6% de variance résiduelle (donc intraclasse). La solution B n’arrive qu’à 83.4% de variance interclasse contre 16.6% de variance intraclasse.
Il semble donc plus intéressant de regrouper l’Afrique australe avec les pays européens si le critère à optimiser est la variance c’est-à-dire la somme des distances euclidiennes élevées au carré. Les conclusion auraient évidemment pu être différentes si nous avions adopté un autre critère.
Partition optimale en k-classes
Supposons maintenant que nous cherchions à diviser notre variable en quatre classes, quelle serait la solution optimale en conservant le critère précédent de minimisation de la variance intra-classe et de maximisation de la variance inter-classe ?
Le problème posé est d’une grande complexité mathématique lorsqu’il s’applique à de grand tableaux de données. On utilise le plus souvent des algorithmes comme celui de Jenks pour trouver la meilleure solution possible. Parmi les méthodes facilement accessibles dans R-base pour des tableaux de petite taille, ont peut souligner l’intérêt de la méthode des noyaux mobiles qui consiste à tirer au hasard plusieurs centres de classes et à regrouper autour d’eux les éléments les plus proches jusqu’à atteindre une convergence. En répétant les tirages à sort, on peut espérer se rapprocher de la solution optimale.
Dans notre exemple, on active la procédure k-means pour 100 tirages au sort :
region | Alcool | Classes_2A | Classes_2B | Classes_4 | |
---|---|---|---|---|---|
5 | Afrique septentrionale | 4 | CL1 | CL1 | CL2 |
3 | Afrique occidentale | 21 | CL1 | CL1 | CL2 |
4 | Afrique orientale | 35 | CL1 | CL1 | CL3 |
2 | Afrique centrale | 39 | CL1 | CL1 | CL3 |
1 | Afrique australe | 101 | CL2 | CL1 | CL4 |
6 | Europe méridionale | 145 | CL2 | CL2 | CL1 |
9 | Europe septentrionale | 146 | CL2 | CL2 | CL1 |
8 | Europe orientale | 160 | CL2 | CL2 | CL1 |
7 | Europe occidentale | 176 | CL2 | CL2 | CL1 |
La solution trouvée par l’algorithme consiste à séparer la région d’Afrique Australe de l’Europe pour en faire une classe à elle toute seule. Puis à diviser les 4 régions d’Afrique en deux paires.
Deux dimensions
Examinons maintenant le cas d’une espace à deux dimensions en reprenant l’exemple utilisé dans l’introduction à l’ACP :
region | Lait | Alcool | |
---|---|---|---|
1 | Afrique australe | 90 | 101 |
2 | Afrique centrale | 12 | 39 |
3 | Afrique occidentale | 26 | 21 |
4 | Afrique orientale | 71 | 35 |
5 | Afrique septentrionale | 134 | 4 |
6 | Europe méridionale | 310 | 145 |
7 | Europe occidentale | 446 | 176 |
8 | Europe orientale | 290 | 160 |
9 | Europe septentrionale | 380 | 146 |
Distance euclidienne non normée
Les distances euclidiennes correspondent ici à la distance entre les points dans le plan constitué par nos deux variables ou la consommation de lait est la coordonnée X et la consommation d’Alcool la coordonnée Y :
Matrice de distance
L’examen du graphique permet de deviner visuellement quelles unités sont les plus proches les unes des autres. On voit ainsi que le point n°1 semble plus proche du point n°5 que du point n°8, ce que l’on peut confirmer en calculant la distance euclidienne dont on rappelle la formule :
\(D_{ij}=\sqrt{(X_i-X_j)^2+(Y_i-Y_j)^2}\)
\(D_{1,5}=\sqrt{(101-4)^2+(90-134)^2} = \sqrt{9409+1936} = 106.5\)
\(D_{1,8}=\sqrt{(101-160)^2+(90-290)^2} = = \sqrt{3481+40000} = 208.5\)
[1] 40000
[1] 208.521
La matrice de distance euclidienne complète est donc :
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
---|---|---|---|---|---|---|---|---|---|
1 | 0 | 100 | 102 | 69 | 107 | 224 | 364 | 209 | 293 |
2 | 100 | 0 | 23 | 59 | 127 | 316 | 455 | 303 | 383 |
3 | 102 | 23 | 0 | 47 | 109 | 310 | 448 | 298 | 375 |
4 | 69 | 59 | 47 | 0 | 70 | 263 | 401 | 252 | 328 |
5 | 107 | 127 | 109 | 70 | 0 | 226 | 356 | 221 | 284 |
6 | 224 | 316 | 310 | 263 | 226 | 0 | 139 | 25 | 70 |
7 | 364 | 455 | 448 | 401 | 356 | 139 | 0 | 157 | 72 |
8 | 209 | 303 | 298 | 252 | 221 | 25 | 157 | 0 | 91 |
9 | 293 | 383 | 375 | 328 | 284 | 70 | 72 | 91 | 0 |
Classification k-means
L’application de la méthode k-means demande à l’utilisateur de fixer le nombre de classes souhaité. L’algorithme va ensuite tirer au sort des individus et procéder à des regroupements autour d’eux puis choisir la solution qui minimise les distance intra-classes et maximise les distances inter-classes. Si l’on opte pour pour 2 classes aboutira à la présence de deux groupes bien distincs :
Classification ascendante hiérarchique
La classification ascendante hiérarchique utilise un algoritjme différent. Elle commence par regrouper ensemble les individus les plus proches selon un critère (ici : la distance moyenne entre individus) puis opère des fusions d’individus et de classe jusqu’à regrouper pous les individus en une seule classe.
Comme on peut le voir, elle regroupe en premier les individus n°2 et n°3 qui sont effectivement les plus proches (\(D_{2,3} = 23\)), puis les individus n°7 et n°8 (\(D_{7,8} = 25\)). A l’étape suivante, l’algorithme regroupe la classe \((2,3)\) avec l’individu n°4 pour former un groupe \((2,3,4)\) où la distance moyenne entre les trois individus est égale à 43. Elle regroupe ensuite les individus n°7 et n°9 dont la distance est de 79, etc.
Sur le dendrogramme (arbre hiérarchique de regroupement, on peut repérer sur l’axe vertical la distance moyenne de regroupement des individus. On voit que le dernier regroupement entre les individus (1,2,3,4,5) et les individus (6,7,8,9) correspond à une distance moyenne proche de 300 ce qui souligne l’existence très nette de deux classes bien différentes.
Distance euclidienne normée
Supposons maintenant que nous ayons décidé en début d’analyse de standardiser nos variables en leur donnant à chacune une moyenne de zéro et un écart-type de 1. Le tableau de départ serait alors celui-ci :
région | Lait_std | Alcool_std | |
---|---|---|---|
1 | Afrique australe | 0.1352042 | -0.6482812 |
2 | Afrique centrale | -0.7848441 | -1.1278317 |
3 | Afrique occidentale | -1.0519549 | -1.0417585 |
4 | Afrique orientale | -0.8442020 | -0.7650948 |
5 | Afrique septentrionale | -1.3042262 | -0.3777656 |
6 | Europe méridionale | 0.7881417 | 0.7042971 |
7 | Europe occidentale | 1.2481659 | 1.5404364 |
8 | Europe orientale | 1.0107341 | 0.5813354 |
9 | Europe septentrionale | 0.8029812 | 1.1346629 |
Distance
Du même coup, les distances entre les individus se trouvent modifiés ce que montre tout d’abord le graphique
La matrice de distance euclidienne normée est désormais mesurée en nombre d’écart-type et on constate que les points se sont rapprochés dans le sens de la variable X (Lait) et éloignés dans le sens de la variable Y (Alcool).
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | |
---|---|---|---|---|---|---|---|---|---|
1 | 0.00 | 1.04 | 1.25 | 0.99 | 1.46 | 1.50 | 2.46 | 1.51 | 1.90 |
2 | 1.04 | 0.00 | 0.28 | 0.37 | 0.91 | 2.41 | 3.35 | 2.48 | 2.76 |
3 | 1.25 | 0.28 | 0.00 | 0.35 | 0.71 | 2.54 | 3.46 | 2.62 | 2.86 |
4 | 0.99 | 0.37 | 0.35 | 0.00 | 0.60 | 2.20 | 3.11 | 2.29 | 2.51 |
5 | 1.46 | 0.91 | 0.71 | 0.60 | 0.00 | 2.36 | 3.19 | 2.51 | 2.59 |
6 | 1.50 | 2.41 | 2.54 | 2.20 | 2.36 | 0.00 | 0.95 | 0.25 | 0.43 |
7 | 2.46 | 3.35 | 3.46 | 3.11 | 3.19 | 0.95 | 0.00 | 0.99 | 0.60 |
8 | 1.51 | 2.48 | 2.62 | 2.29 | 2.51 | 0.25 | 0.99 | 0.00 | 0.59 |
9 | 1.90 | 2.76 | 2.86 | 2.51 | 2.59 | 0.43 | 0.60 | 0.59 | 0.00 |
Classification k-means
L’application de la méthode k-means donne des résultats proches de l’analyse précédente mais avec une opposition moins nette entre les deux groupes désormais
Classification ascendante hiérarchique
La classification ascendante hiérarchique conserve quant à elle la division en deux groupe mais on repère de légères modifications dans le bas de l’arbre. Ainsi, l’individu n°9 ne se regroupe plus en premier avec l’individu n°7 mais avec les individus n°6 et 8.
Méthode de Ward
La troisième méthode, qui est en pratique la plus utilisée, consiste à opérer une classification non plus à l’aide des distances euclidiennes (normées ou non) mais à l’aide du carré de ces distances euclidiennes. Pourquoi ?
Parce que, comme nous l’avons vu dans le cadre du cours sur l’Analyse en Composantes Principales, la somme des distance euclidiennes au carré est proportionnelle à la somme des variances des différentes variables du tableau. La méthode de Ward va donc consiste à minimiser la variance intra-classes et maximiser la variance inter-classes. Elle sera de ce fait très complémentaire avec l’ACP puisque cette dernière consiste précisément à concentrer la variance sur quelques axes significatifs.
Indiquons brièvement sans nous y attarder pour l’instant les résultats d’une ACP-CAH normée appliquée à notre tableau.
k Dimensions
Nous nous plaçons finalement das le cas général d’un tableau de dimension quelconque où \(n\) individus \(1...i...n\) sont décrits par \(k\) variables \(1...j..k\). Nous prenons à titre d’exemple le tableau des régimes alimentaires de 9 régions d’Europe et d’Afrique décrits par 6 variables mesurant les apports alimentaires en kCal/pers/jour (source : FAO, 2020).
Animaux | Céréales | Légumes | Huiles | Sucres | Divers | |
---|---|---|---|---|---|---|
AF_Su | 448 | 1358 | 114 | 421 | 300 | 161 |
AF_Ce | 113 | 633 | 1048 | 249 | 76 | 138 |
AF_Ou | 120 | 1209 | 692 | 359 | 108 | 214 |
AF_Es | 165 | 1178 | 380 | 197 | 107 | 229 |
AF_No | 326 | 1819 | 243 | 363 | 304 | 183 |
EU_Su | 876 | 970 | 297 | 650 | 305 | 311 |
EU_Ou | 1202 | 882 | 294 | 506 | 408 | 300 |
EU_Es | 897 | 1138 | 272 | 385 | 370 | 281 |
EU_No | 1051 | 971 | 271 | 463 | 298 | 341 |
Nous décidons de standardiser le tableau afin de faire jouer le même rôle à chacune des six variables :
Animaux | Céréales | Légumes | Huiles | Sucres | Divers | |
---|---|---|---|---|---|---|
AF_Su | -0.30 | 0.69 | -0.99 | 0.16 | 0.38 | -1.10 |
AF_Ce | -1.08 | -1.48 | 2.24 | -1.11 | -1.44 | -1.42 |
AF_Ou | -1.06 | 0.24 | 1.01 | -0.30 | -1.18 | -0.36 |
AF_Es | -0.96 | 0.15 | -0.07 | -1.50 | -1.19 | -0.15 |
AF_No | -0.58 | 2.06 | -0.55 | -0.27 | 0.42 | -0.79 |
EU_Su | 0.69 | -0.47 | -0.36 | 1.86 | 0.42 | 0.99 |
EU_Ou | 1.45 | -0.74 | -0.37 | 0.79 | 1.26 | 0.84 |
EU_Es | 0.74 | 0.03 | -0.45 | -0.11 | 0.95 | 0.57 |
EU_No | 1.10 | -0.47 | -0.45 | 0.47 | 0.37 | 1.41 |
Matrice de distance
Nous souhaitons utiliser le critère de Ward donc nous allons mesurer les dissimilarités entre régions à l’aide du carré de la distance euclidienne, c’est-à-dire de la variance (où si l’on préfère de l’inertie) des individus dans l’espace à cinq dimensions constitué par nos variables.
AF_Su | AF_Ce | AF_Ou | AF_Es | AF_No | EU_Su | EU_Ou | EU_Es | EU_No | sum | |
---|---|---|---|---|---|---|---|---|---|---|
AF_Su | 0.0 | 4.6 | 2.8 | 2.8 | 1.6 | 3.2 | 3.2 | 2.2 | 3.2 | 23.5 |
AF_Ce | 4.6 | 0.0 | 2.5 | 3.1 | 5.0 | 5.4 | 5.5 | 4.9 | 5.2 | 36.1 |
AF_Ou | 2.8 | 2.5 | 0.0 | 1.6 | 3.0 | 3.8 | 4.2 | 3.3 | 3.7 | 24.9 |
AF_Es | 2.8 | 3.1 | 1.6 | 0.0 | 2.9 | 4.3 | 4.3 | 3.2 | 3.7 | 26.0 |
AF_No | 1.6 | 5.0 | 3.0 | 2.9 | 0.0 | 4.0 | 4.1 | 2.8 | 3.8 | 27.2 |
EU_Su | 3.2 | 5.4 | 3.8 | 4.3 | 4.0 | 0.0 | 1.6 | 2.1 | 1.5 | 25.9 |
EU_Ou | 3.2 | 5.5 | 4.2 | 4.3 | 4.1 | 1.6 | 0.0 | 1.4 | 1.2 | 25.5 |
EU_Es | 2.2 | 4.9 | 3.3 | 3.2 | 2.8 | 2.1 | 1.4 | 0.0 | 1.3 | 21.3 |
EU_No | 3.2 | 5.2 | 3.7 | 3.7 | 3.8 | 1.5 | 1.2 | 1.3 | 0.0 | 23.5 |
sum | 23.5 | 36.1 | 24.9 | 26.0 | 27.2 | 25.9 | 25.5 | 21.3 | 23.5 | 233.9 |
Ce tableau nous permet de mesurer les dissimilarités entre les deux régions que notre cerveau serait incapable de visualiser dans un espace à cinq dimensions. Pour le critère considéré on peut par exemple remarquer :
- que les deux régions les plus ressemblantes sont l’Europe de l’Ouest et l’Europe du Nord (\(D_{i,j}^2 = 1.2\))
- que les deux régions les plus dissemblantes sont l’Europe de l’Ouest et l’Afrique Centrale (\(D_{i,j}^2 = 5.5\))
- que la région la plus proche de toutes les autres est l’Europe de l’Est (\(\sum_{j=1}^n {D_{i,j}^2} = 21.3\)})
- que la région la plus éloignée de toutes les autres est l’Afrique Centrale (\(\sum_{j=1}^n {D_{i,j}^2} = 36.1\)})
Résultats de l’ACP normée
On reprend ici sans les commenter en détail les résultats de l’ACP normée qui a été effectuée sur ce tableau.
Les deux premiers axes de l’ACP résument respectivement 60.79% et 25.73% de la variance (l’inertie) du nuage de points soit un total de 85.52% de l’information. La visualisation de la position des régions dans ce plan factoriel fournit donc une assez bonne approximation des dissimilarités entre les régions et confirme nos observations précédentes sur les régions les plus proches et les plus éloignées.
On doit toutefois éviter de tirer des conclusions trop rapides puisqu’environ 15% de l’information est contenue dans les axes factoriels suivant. On peut s’en rendre compte en examinant les corrélations des variables et les coordonnées des individus sur les axes factoriels 3 et 4. Ces derniers mettent en valeur un certain nombre de propriétés des régions en ce qui concerne la part respective des consommations d’huile, de sucre et de produits divers, toutes choses égales quant aux consommations de viandes, céréales ou légumes qui ont déjà été prises en compte par les deux premiers axes.
Cela signifie que certaines différences entre les régions ne seraient pas visibles si l’on s’en tenait aux résultats fournis par les deux premières composantes de l’ACP.
Résultats de la CAH
L’intérêt de la CAH (critère de Ward) est donc précisément de fournir une vision complète des proximités entre les individus en tenant compte de toute l’information et pas seulement de celle qui est fournie par les premiers axes factoriels de l’ACP.
Combien de classes ?
L’arbre de classification a été ici coupé en trois classes de façon à opérer le meilleur compromis possible entre deux exigences contradictoires :
- conserver le maximum d’information
- résumer en un miniumum de classes
Pour bien comprendre la contradiction, on peut considérer deux cas limites :
- si nous avions fait 9 classes (autant que d’individus), nous aurions certes conseré toute l’information mais nous n’aurions effectué aucun résumé.
- si nous avions fait une seule classe, nous aurions résumé au mieux l’information mais nous n’aurions rien appris.
Le choix du nombre de classe est donc toujours une question délicate qui demande une part d’intuition. On peut toutefois s’aider du tableau et de l’histogramme des quantités d’inertie (de variance) que l’on aura pris en compte selon que l’on choisit 2, 3 ou 4 classes :
Le principe général consiste à couper l’arbre après un “saut” dans l’histogramme. On voit ici que le saut principal se produit après la deuxième barre de l’histogramme ce qui signifie qu’une partition en 3 classes est un bon choix. Mais on aurait également pu retenir une partition en deux classes ou quatre classes.
Profil des classes
Une fois établies nos classes, il faut apprendre à les interpréter en repérant ce qui les caractérise. Les différents logiciels de statistiques offrent des aides à l’interprétation qui seront vues en TD. Nous nous bornons donc juste ici à indiquer à titre d’exemple les aides fournies par FactoMineR :
Link between the cluster variable and the quantitative variables
================================================================
Eta2 P-value
Animaux 0.9471471 0.0001476412
Sucres 0.9249708 0.0004223683
Divers 0.8327391 0.0046793264
Légumes 0.6516018 0.0422890360
Huiles 0.6390547 0.0470244875
Description of each cluster by quantitative variables
=====================================================
$`1`
v.test Mean in category Overall mean sd in category Overall sd
Légumes 2.244208 1.0579296 4.934325e-17 0.9452337 0.942809
Huiles -2.059367 -0.9707947 -1.850372e-17 0.5008981 0.942809
Animaux -2.193711 -1.0341255 4.934325e-17 0.0535579 0.942809
Sucres -2.689751 -1.2679610 -6.167906e-18 0.1208256 0.942809
p.value
Légumes 0.024819045
Huiles 0.039459132
Animaux 0.028256159
Sucres 0.007150525
$`2`
v.test Mean in category Overall mean sd in category Overall sd
Céréales 2.204936 1.375019 -2.220446e-16 0.6892538 0.942809
p.value
Céréales 0.02745862
$`3`
v.test Mean in category Overall mean sd in category Overall sd
Animaux 2.675402 0.9970633 4.934325e-17 0.3057811 0.942809
Divers 2.559798 0.9539802 7.401487e-17 0.3029089 0.942809
Huiles 2.025554 0.7548794 -1.850372e-17 0.7145518 0.942809
Sucres 2.015794 0.7512420 -6.167906e-18 0.3727962 0.942809
p.value
Animaux 0.007463978
Divers 0.010473315
Huiles 0.042810503
Sucres 0.043821528
Les résultats et le graphique ci-dessus nous indiquent que :
- la classe 1 regroupe des régions qui consomment significativement plus de légumes et significativement moins d’huiles, d’animaux et de sucre que les autres.
- la classe 2 regroupe des régions qui consomment significativement plus de céréales que les autres.
- la classe 3 regroupe des régions qui consomment significativement plus d’animaux, de produits divers, d’huile et de sucre que les autres
Lien entre ACP et CAH
on peut finalement relier ACP et CAH en superposant l’arbre de classification sur le plan factoriel des axes 1 et 2.
On peut alors constater que l’opposition entre les classes 1 et 3 correspond aux différences exprimées par l’axe 1 entre pays à forte consommation de légume et pays à forte consommation de viandes, huiles, sucres et produit divers. Quant à la classe 2, elle se démarque principalement sur l’axe 2 qui correspond à une forte part de céréales dans le régime alimentaire et des niveaux proches de la moyenne sur les autres critères.