Cours 3 : Principes de la classification

Author

Claude Grasland

Introduction

Les objectifs de ce cours sont :

Comprendre la nature générale d’une procédure de classification non supervisée
Construire une matrice de dissimilarité à partir d’un tableau à 1, 2 ou k dimension
Appliquer la procédure k-means
Construire une classification ascendante hiérarchique à l’aide du critère de Ward
Comprendre le lien entre ACP et CAH

La classification consiste d’une manière générale à regrouper dans une même classe des individus qui se ressemblent et à séparer dans des classes différentes ceux qui sont différents. Ce problème très général est au coeur même de toute démarche scientifique et il soulève des questions épistémologiques et philosophiques fondamentales qui dépassent le cadre de cet enseignement. Nous nous limiterons ici à poser le problème de la classification dans le cadre de procédures statistiques appliquées à des variables de type quantitatif continu. Nous montrerons que le problème posé est alors celui de la recherche d’une classification non supervisée c’est-à-dire la découverte de ressemblances entre des individus en fonction de critères objectivement reproductibles.

Une dimension

Considérons à titre de premier exemple la consommation moyenne d’alcool (mesurée en kCal/pers/j) de 9 régions d’Europe et d’Afrique

Exemple 1 : variable unique
	region	Alcool
1	Afrique australe	101
2	Afrique centrale	39
3	Afrique occidentale	21
4	Afrique orientale	35
5	Afrique septentrionale	4
6	Europe méridionale	145
7	Europe occidentale	176
8	Europe orientale	160
9	Europe septentrionale	146

Essayons de répondre à des questions d’abord à des questions simples comme :

Q1 : quelles sont les deux régions les plus dissemblantes ?
Q2 :l’Afrique Occidentale ressemble-t-elle plus à l’Afrique septentrionale ou à l’Afrique Australe ?

Puis à des questions plus complexes comme :

Q3 : Quelle est la meilleure partition en deux classes ?
Q4 : Quelle est la meilleure partition en k classes ?
La question Q1 est la plus simple et sa réponse ne devrait pas susciter de débat. sachant que la valeur miniumum est de 4 et la valeur maximale de 176, on peut conclure que la plus grande différence est observée entre l’Afrique septentrionale (point n°5) et l’Europe occidentale (point n°7). On peut visualiser leuer éloignement à l’aide d’une figure :

La question Q2 est en revanche moins simple qu’il n’y paraît car elle peut appeler des réponses différentes selon que l’on décide d’utiliser des différences absolues ou des différences relatives entre les régions.

Distance absolue

Si l’on raisonne en valeur absolue, nous allons construire une matrice de dissimilarité \(D_{abs}\) définie par :

\(D_{abs}(i,j) = \lvert{X_i-X_j}\rvert\)

Matrice des différences absolues
	1	2	3	4	5	6	7	8	9
1. Afrique australe	0	62	80	66	97	44	75	59	45
2. Afrique centrale	62	0	18	4	35	106	137	121	107
3. Afrique occidentale	80	18	0	14	17	124	155	139	125
4. Afrique orientale	66	4	14	0	31	110	141	125	111
5. Afrique septentrionale	97	35	17	31	0	141	172	156	142
6. Europe méridionale	44	106	124	110	141	0	31	15	1
7. Europe occidentale	75	137	155	141	172	31	0	16	30
8. Europe orientale	59	121	139	125	156	15	16	0	14
9. Europe septentrionale	45	107	125	111	142	1	30	14	0

On serait alors tenté de dire que l’Afrique occidentale ressemble plus à l’Afrique septentrionale qu’à l’Afrique Australe puisque les distances observées sont de 17 dans le premier cas et de 80 dans le second.

Distance relative

Mais on pourrait aussi considérer la distance relative en effectuant pour chaque paire de valeur le rapport entre le maximum et le maximum. Soit la matrice de distance relative \(D_{rel}\) définie par :

\(D_{rel}(i,j) = \frac{max(X_i,X_j)}{min(X_i,X_j)}\)

Matrice des différences relatives
	1	2	3	4	5	6	7	8	9
1. Afrique australe	1.00	2.59	4.81	2.89	25.25	1.44	1.74	1.58	1.45
2. Afrique centrale	2.59	1.00	1.86	1.11	9.75	3.72	4.51	4.10	3.74
3. Afrique occidentale	4.81	1.86	1.00	1.67	5.25	6.90	8.38	7.62	6.95
4. Afrique orientale	2.89	1.11	1.67	1.00	8.75	4.14	5.03	4.57	4.17
5. Afrique septentrionale	25.25	9.75	5.25	8.75	1.00	36.25	44.00	40.00	36.50
6. Europe méridionale	1.44	3.72	6.90	4.14	36.25	1.00	1.21	1.10	1.01
7. Europe occidentale	1.74	4.51	8.38	5.03	44.00	1.21	1.00	1.10	1.21
8. Europe orientale	1.58	4.10	7.62	4.57	40.00	1.10	1.10	1.00	1.10
9. Europe septentrionale	1.45	3.74	6.95	4.17	36.50	1.01	1.21	1.10	1.00

On aboutit désormais à une conclusion inverse. En effet le rapport de consommation d’alcool est de 1 à 4.81 dans le cas de l’Afrique australe et de 1 à 5.25 dans le cas del’Afrique septentrionale.

Distance logarithmique

On aurait pu aboutir à la même conclusion en calculant les différences absolues entre les logarithmes des valeurs respectives de Xi et Xj soit la matrice \(D_{log}\) :

\(D_{log}(i,j) = \lvert{log(X_i)-log(X_j)}\rvert\)

Matrice des différences logarithmiques
	1	2	3	4	5	6	7	8	9
1. Afrique australe	0.00	0.95	1.57	1.06	3.23	0.36	0.56	0.46	0.37
2. Afrique centrale	0.95	0.00	0.62	0.11	2.28	1.31	1.51	1.41	1.32
3. Afrique occidentale	1.57	0.62	0.00	0.51	1.66	1.93	2.13	2.03	1.94
4. Afrique orientale	1.06	0.11	0.51	0.00	2.17	1.42	1.62	1.52	1.43
5. Afrique septentrionale	3.23	2.28	1.66	2.17	0.00	3.59	3.78	3.69	3.60
6. Europe méridionale	0.36	1.31	1.93	1.42	3.59	0.00	0.19	0.10	0.01
7. Europe occidentale	0.56	1.51	2.13	1.62	3.78	0.19	0.00	0.10	0.19
8. Europe orientale	0.46	1.41	2.03	1.52	3.69	0.10	0.10	0.00	0.09
9. Europe septentrionale	0.37	1.32	1.94	1.43	3.60	0.01	0.19	0.09	0.00

Ce résultat est logique si on se rappelle que :

\(log(\frac{X_i}{X_j}) = log(X_i) - log(X_j)\)

Les valeurs affichées dans cette troisième matrice ne sont donc rien d’autre que les logarithmes des valeurs de la seconde matrice.

Distance euclidienne (au carré)

Présentons pour finir une quatrième matrice de distance correspondant au carré des différences entre les valeurs que nous nommerons distance euclidienne au carré :

\(D_{euc}^2(i,j) = (X_i-X_j)^2\)

Matrice des différences euclidiennes au carré
	1	2	3	4	5	6	7	8	9
1. Afrique australe	0	3844	6400	4356	9409	1936	5625	3481	2025
2. Afrique centrale	3844	0	324	16	1225	11236	18769	14641	11449
3. Afrique occidentale	6400	324	0	196	289	15376	24025	19321	15625
4. Afrique orientale	4356	16	196	0	961	12100	19881	15625	12321
5. Afrique septentrionale	9409	1225	289	961	0	19881	29584	24336	20164
6. Europe méridionale	1936	11236	15376	12100	19881	0	961	225	1
7. Europe occidentale	5625	18769	24025	19881	29584	961	0	256	900
8. Europe orientale	3481	14641	19321	15625	24336	225	256	0	196
9. Europe septentrionale	2025	11449	15625	12321	20164	1	900	196	0

A première vue cette quatrième mesure de dissimilarité n’a pas grand intérêt puisqu’elle ne fait que reprendre les distances absolues en renforçant leur effet. La distance entre Afrique occidentale et Afrique australe est désormais de \(80^2 = 6400\) tandis que celle entre Afrique occidentale et Afrique septentrionale est de \(17^2 = 289\).

En réalité, cette dernière mesure de distance est l’une des plus utilisée dans les méthodes de classification car elle permet d’établir un lien entre la notion de dissimilarité et la notion de variance. La somme de la matrice des distances euclidiennes au carré est en effet proportionelle à la variance de la variable X puisque :

\({var}(X) = \frac{1}{n-1}\sum_{i=1}^n{(X_i-\overline{X})^2} = \frac{1}{2.n.(n-1)}\sum_{i=1}^n\sum_{j=1}^n{(X_i-X_j)^2}\)

Ce que l’on peut vérifier facilement en calculant la variance de notre indicateur (4541.111) et en la comparant au total de la matrice des distances euclidiennes au carré (653920). Puis en effectuant le calcul \(4541.111 \times 9 \times 8 \times 2 = 653920\)

Partition optimale en deux classes

La recherche d’une partition optimale en deux classes dans un espace à une dimension est relativement simple mais elle impose de se fixer une règle précise de décision, c’est-à-dire un critère de performance à optimiser. D’une manière générale, ce critère devra répondre à la défintion proposée en introduction à savoir :

regrouper les unités qui se ressemblent le plus entre elles
séparer les unités qui sont les plus différentes entre elles.

Au vu de la distribution de notre variable, il semble assez évident que nous allons regrouper ensemble les quatres régions d’Europe (n°6,7,8,9) à forte consommation d’alcool et les quatre régions d’Afrique (n°2,3,4,5) à faible consommation. Mais on peut hésiter sur l’affectation de la région n°1 qui se situe à peu près à mi-chemin entre les deux groupes. Faut-il couper en A (trait rouge) ou en B (trait bleu) ?

Une manière statistique de trancher entre les deux solutions consiste à utiliser l’analyse de variance et de tester la part de variance expliquée par un modèle rattachant le point central soit à l’Europe (on coupe en A), soit à l’Afrique (on coupe en B). On construit donc le tableau suivant :

region	Alcool	Classes_2A	Classes_2B
Afrique australe	101	CL2	CL1
Afrique centrale	39	CL1	CL1
Afrique occidentale	21	CL1	CL1
Afrique orientale	35	CL1	CL1
Afrique septentrionale	4	CL1	CL1
Europe méridionale	145	CL2	CL2
Europe occidentale	176	CL2	CL2
Europe orientale	160	CL2	CL2
Europe septentrionale	146	CL2	CL2


Call:
lm(formula = don$Alcool ~ don$Classes_2A)

Residuals:
   Min     1Q Median     3Q    Max 
-44.60  -3.75   0.40  14.25  30.40 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)          24.75      11.76   2.104  0.07342 .  
don$Classes_2ACL2   120.85      15.78   7.658  0.00012 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 23.52 on 7 degrees of freedom
Multiple R-squared:  0.8934,    Adjusted R-squared:  0.8781 
F-statistic: 58.64 on 1 and 7 DF,  p-value: 0.0001204

Analysis of Variance Table

Response: don$Alcool
               Df Sum Sq Mean Sq F value    Pr(>F)    
don$Classes_2A  1  32455   32455  58.644 0.0001204 ***
Residuals       7   3874     553                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1


Call:
lm(formula = don$Alcool ~ don$Classes_2B)

Residuals:
   Min     1Q Median     3Q    Max 
-36.00 -11.75  -5.00   3.25  61.00 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)          40.00      13.14   3.045 0.018708 *  
don$Classes_2BCL2   116.75      19.70   5.926 0.000584 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 29.37 on 7 degrees of freedom
Multiple R-squared:  0.8338,    Adjusted R-squared:   0.81 
F-statistic: 35.11 on 1 and 7 DF,  p-value: 0.0005843

Analysis of Variance Table

Response: don$Alcool
               Df  Sum Sq Mean Sq F value    Pr(>F)    
don$Classes_2B  1 30290.1 30290.1  35.112 0.0005843 ***
Residuals       7  6038.8   862.7                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

L’analyse des résultats montre que la solution A est la meilleure dans la mesure où elle a boutit à 89.4% de variance expliquée (donc interclasse) et 10.6% de variance résiduelle (donc intraclasse). La solution B n’arrive qu’à 83.4% de variance interclasse contre 16.6% de variance intraclasse.

Il semble donc plus intéressant de regrouper l’Afrique australe avec les pays européens si le critère à optimiser est la variance c’est-à-dire la somme des distances euclidiennes élevées au carré. Les conclusion auraient évidemment pu être différentes si nous avions adopté un autre critère.

Partition optimale en k-classes

Supposons maintenant que nous cherchions à diviser notre variable en quatre classes, quelle serait la solution optimale en conservant le critère précédent de minimisation de la variance intra-classe et de maximisation de la variance inter-classe ?

Le problème posé est d’une grande complexité mathématique lorsqu’il s’applique à de grand tableaux de données. On utilise le plus souvent des algorithmes comme celui de Jenks pour trouver la meilleure solution possible. Parmi les méthodes facilement accessibles dans R-base pour des tableaux de petite taille, ont peut souligner l’intérêt de la méthode des noyaux mobiles qui consiste à tirer au hasard plusieurs centres de classes et à regrouper autour d’eux les éléments les plus proches jusqu’à atteindre une convergence. En répétant les tirages à sort, on peut espérer se rapprocher de la solution optimale.

Dans notre exemple, on active la procédure k-means pour 100 tirages au sort :

	region	Alcool	Classes_2A	Classes_2B	Classes_4
5	Afrique septentrionale	4	CL1	CL1	CL2
3	Afrique occidentale	21	CL1	CL1	CL2
4	Afrique orientale	35	CL1	CL1	CL3
2	Afrique centrale	39	CL1	CL1	CL3
1	Afrique australe	101	CL2	CL1	CL4
6	Europe méridionale	145	CL2	CL2	CL1
9	Europe septentrionale	146	CL2	CL2	CL1
8	Europe orientale	160	CL2	CL2	CL1
7	Europe occidentale	176	CL2	CL2	CL1

La solution trouvée par l’algorithme consiste à séparer la région d’Afrique Australe de l’Europe pour en faire une classe à elle toute seule. Puis à diviser les 4 régions d’Afrique en deux paires.

Deux dimensions

Examinons maintenant le cas d’une espace à deux dimensions en reprenant l’exemple utilisé dans l’introduction à l’ACP :

Consommation moyenne de lait et d'alcool en Europe et en Afrique en 2020 (en kCal/pers/jour)
	region	Lait	Alcool
1	Afrique australe	90	101
2	Afrique centrale	12	39
3	Afrique occidentale	26	21
4	Afrique orientale	71	35
5	Afrique septentrionale	134	4
6	Europe méridionale	310	145
7	Europe occidentale	446	176
8	Europe orientale	290	160
9	Europe septentrionale	380	146

Distance euclidienne non normée

Les distances euclidiennes correspondent ici à la distance entre les points dans le plan constitué par nos deux variables ou la consommation de lait est la coordonnée X et la consommation d’Alcool la coordonnée Y :

Matrice de distance

L’examen du graphique permet de deviner visuellement quelles unités sont les plus proches les unes des autres. On voit ainsi que le point n°1 semble plus proche du point n°5 que du point n°8, ce que l’on peut confirmer en calculant la distance euclidienne dont on rappelle la formule :

\(D_{ij}=\sqrt{(X_i-X_j)^2+(Y_i-Y_j)^2}\)

\(D_{1,5}=\sqrt{(101-4)^2+(90-134)^2} = \sqrt{9409+1936} = 106.5\)

\(D_{1,8}=\sqrt{(101-160)^2+(90-290)^2} = = \sqrt{3481+40000} = 208.5\)

[1] 40000

[1] 208.521

La matrice de distance euclidienne complète est donc :

Distance euclidienne
	1	2	3	4	5	6	7	8	9
1	0	100	102	69	107	224	364	209	293
2	100	0	23	59	127	316	455	303	383
3	102	23	0	47	109	310	448	298	375
4	69	59	47	0	70	263	401	252	328
5	107	127	109	70	0	226	356	221	284
6	224	316	310	263	226	0	139	25	70
7	364	455	448	401	356	139	0	157	72
8	209	303	298	252	221	25	157	0	91
9	293	383	375	328	284	70	72	91	0

Classification k-means

L’application de la méthode k-means demande à l’utilisateur de fixer le nombre de classes souhaité. L’algorithme va ensuite tirer au sort des individus et procéder à des regroupements autour d’eux puis choisir la solution qui minimise les distance intra-classes et maximise les distances inter-classes. Si l’on opte pour pour 2 classes aboutira à la présence de deux groupes bien distincs :

Classification ascendante hiérarchique

La classification ascendante hiérarchique utilise un algoritjme différent. Elle commence par regrouper ensemble les individus les plus proches selon un critère (ici : la distance moyenne entre individus) puis opère des fusions d’individus et de classe jusqu’à regrouper pous les individus en une seule classe.

Comme on peut le voir, elle regroupe en premier les individus n°2 et n°3 qui sont effectivement les plus proches (\(D_{2,3} = 23\)), puis les individus n°7 et n°8 (\(D_{7,8} = 25\)). A l’étape suivante, l’algorithme regroupe la classe \((2,3)\) avec l’individu n°4 pour former un groupe \((2,3,4)\) où la distance moyenne entre les trois individus est égale à 43. Elle regroupe ensuite les individus n°7 et n°9 dont la distance est de 79, etc.

Sur le dendrogramme (arbre hiérarchique de regroupement, on peut repérer sur l’axe vertical la distance moyenne de regroupement des individus. On voit que le dernier regroupement entre les individus (1,2,3,4,5) et les individus (6,7,8,9) correspond à une distance moyenne proche de 300 ce qui souligne l’existence très nette de deux classes bien différentes.

Distance euclidienne normée

Supposons maintenant que nous ayons décidé en début d’analyse de standardiser nos variables en leur donnant à chacune une moyenne de zéro et un écart-type de 1. Le tableau de départ serait alors celui-ci :

Tableau standardisé
	région	Lait_std	Alcool_std
1	Afrique australe	0.1352042	-0.6482812
2	Afrique centrale	-0.7848441	-1.1278317
3	Afrique occidentale	-1.0519549	-1.0417585
4	Afrique orientale	-0.8442020	-0.7650948
5	Afrique septentrionale	-1.3042262	-0.3777656
6	Europe méridionale	0.7881417	0.7042971
7	Europe occidentale	1.2481659	1.5404364
8	Europe orientale	1.0107341	0.5813354
9	Europe septentrionale	0.8029812	1.1346629

Distance

Du même coup, les distances entre les individus se trouvent modifiés ce que montre tout d’abord le graphique

La matrice de distance euclidienne normée est désormais mesurée en nombre d’écart-type et on constate que les points se sont rapprochés dans le sens de la variable X (Lait) et éloignés dans le sens de la variable Y (Alcool).

Distance euclidienne normée
	1	2	3	4	5	6	7	8	9
1	0.00	1.04	1.25	0.99	1.46	1.50	2.46	1.51	1.90
2	1.04	0.00	0.28	0.37	0.91	2.41	3.35	2.48	2.76
3	1.25	0.28	0.00	0.35	0.71	2.54	3.46	2.62	2.86
4	0.99	0.37	0.35	0.00	0.60	2.20	3.11	2.29	2.51
5	1.46	0.91	0.71	0.60	0.00	2.36	3.19	2.51	2.59
6	1.50	2.41	2.54	2.20	2.36	0.00	0.95	0.25	0.43
7	2.46	3.35	3.46	3.11	3.19	0.95	0.00	0.99	0.60
8	1.51	2.48	2.62	2.29	2.51	0.25	0.99	0.00	0.59
9	1.90	2.76	2.86	2.51	2.59	0.43	0.60	0.59	0.00

Classification k-means

L’application de la méthode k-means donne des résultats proches de l’analyse précédente mais avec une opposition moins nette entre les deux groupes désormais

Classification ascendante hiérarchique

La classification ascendante hiérarchique conserve quant à elle la division en deux groupe mais on repère de légères modifications dans le bas de l’arbre. Ainsi, l’individu n°9 ne se regroupe plus en premier avec l’individu n°7 mais avec les individus n°6 et 8.

Méthode de Ward

La troisième méthode, qui est en pratique la plus utilisée, consiste à opérer une classification non plus à l’aide des distances euclidiennes (normées ou non) mais à l’aide du carré de ces distances euclidiennes. Pourquoi ?

Parce que, comme nous l’avons vu dans le cadre du cours sur l’Analyse en Composantes Principales, la somme des distance euclidiennes au carré est proportionnelle à la somme des variances des différentes variables du tableau. La méthode de Ward va donc consiste à minimiser la variance intra-classes et maximiser la variance inter-classes. Elle sera de ce fait très complémentaire avec l’ACP puisque cette dernière consiste précisément à concentrer la variance sur quelques axes significatifs.

Indiquons brièvement sans nous y attarder pour l’instant les résultats d’une ACP-CAH normée appliquée à notre tableau.

k Dimensions

Nous nous plaçons finalement das le cas général d’un tableau de dimension quelconque où \(n\) individus \(1...i...n\) sont décrits par \(k\) variables \(1...j..k\). Nous prenons à titre d’exemple le tableau des régimes alimentaires de 9 régions d’Europe et d’Afrique décrits par 6 variables mesurant les apports alimentaires en kCal/pers/jour (source : FAO, 2020).

Consommation alimentaire en kCal/pers/jou (tableau brut)
	Animaux	Céréales	Légumes	Huiles	Sucres	Divers
AF_Su	448	1358	114	421	300	161
AF_Ce	113	633	1048	249	76	138
AF_Ou	120	1209	692	359	108	214
AF_Es	165	1178	380	197	107	229
AF_No	326	1819	243	363	304	183
EU_Su	876	970	297	650	305	311
EU_Ou	1202	882	294	506	408	300
EU_Es	897	1138	272	385	370	281
EU_No	1051	971	271	463	298	341

Nous décidons de standardiser le tableau afin de faire jouer le même rôle à chacune des six variables :

Consommation alimentaire en kCal/pers/jou (tableau standardisé
	Animaux	Céréales	Légumes	Huiles	Sucres	Divers
AF_Su	-0.30	0.69	-0.99	0.16	0.38	-1.10
AF_Ce	-1.08	-1.48	2.24	-1.11	-1.44	-1.42
AF_Ou	-1.06	0.24	1.01	-0.30	-1.18	-0.36
AF_Es	-0.96	0.15	-0.07	-1.50	-1.19	-0.15
AF_No	-0.58	2.06	-0.55	-0.27	0.42	-0.79
EU_Su	0.69	-0.47	-0.36	1.86	0.42	0.99
EU_Ou	1.45	-0.74	-0.37	0.79	1.26	0.84
EU_Es	0.74	0.03	-0.45	-0.11	0.95	0.57
EU_No	1.10	-0.47	-0.45	0.47	0.37	1.41

Matrice de distance

Nous souhaitons utiliser le critère de Ward donc nous allons mesurer les dissimilarités entre régions à l’aide du carré de la distance euclidienne, c’est-à-dire de la variance (où si l’on préfère de l’inertie) des individus dans l’espace à cinq dimensions constitué par nos variables.

	AF_Su	AF_Ce	AF_Ou	AF_Es	AF_No	EU_Su	EU_Ou	EU_Es	EU_No	sum
AF_Su	0.0	4.6	2.8	2.8	1.6	3.2	3.2	2.2	3.2	23.5
AF_Ce	4.6	0.0	2.5	3.1	5.0	5.4	5.5	4.9	5.2	36.1
AF_Ou	2.8	2.5	0.0	1.6	3.0	3.8	4.2	3.3	3.7	24.9
AF_Es	2.8	3.1	1.6	0.0	2.9	4.3	4.3	3.2	3.7	26.0
AF_No	1.6	5.0	3.0	2.9	0.0	4.0	4.1	2.8	3.8	27.2
EU_Su	3.2	5.4	3.8	4.3	4.0	0.0	1.6	2.1	1.5	25.9
EU_Ou	3.2	5.5	4.2	4.3	4.1	1.6	0.0	1.4	1.2	25.5
EU_Es	2.2	4.9	3.3	3.2	2.8	2.1	1.4	0.0	1.3	21.3
EU_No	3.2	5.2	3.7	3.7	3.8	1.5	1.2	1.3	0.0	23.5
sum	23.5	36.1	24.9	26.0	27.2	25.9	25.5	21.3	23.5	233.9

Ce tableau nous permet de mesurer les dissimilarités entre les deux régions que notre cerveau serait incapable de visualiser dans un espace à cinq dimensions. Pour le critère considéré on peut par exemple remarquer :

que les deux régions les plus ressemblantes sont l’Europe de l’Ouest et l’Europe du Nord (\(D_{i,j}^2 = 1.2\))
que les deux régions les plus dissemblantes sont l’Europe de l’Ouest et l’Afrique Centrale (\(D_{i,j}^2 = 5.5\))
que la région la plus proche de toutes les autres est l’Europe de l’Est (\(\sum_{j=1}^n {D_{i,j}^2} = 21.3\)})
que la région la plus éloignée de toutes les autres est l’Afrique Centrale (\(\sum_{j=1}^n {D_{i,j}^2} = 36.1\)})

Résultats de l’ACP normée

On reprend ici sans les commenter en détail les résultats de l’ACP normée qui a été effectuée sur ce tableau.

Les deux premiers axes de l’ACP résument respectivement 60.79% et 25.73% de la variance (l’inertie) du nuage de points soit un total de 85.52% de l’information. La visualisation de la position des régions dans ce plan factoriel fournit donc une assez bonne approximation des dissimilarités entre les régions et confirme nos observations précédentes sur les régions les plus proches et les plus éloignées.

On doit toutefois éviter de tirer des conclusions trop rapides puisqu’environ 15% de l’information est contenue dans les axes factoriels suivant. On peut s’en rendre compte en examinant les corrélations des variables et les coordonnées des individus sur les axes factoriels 3 et 4. Ces derniers mettent en valeur un certain nombre de propriétés des régions en ce qui concerne la part respective des consommations d’huile, de sucre et de produits divers, toutes choses égales quant aux consommations de viandes, céréales ou légumes qui ont déjà été prises en compte par les deux premiers axes.

Cela signifie que certaines différences entre les régions ne seraient pas visibles si l’on s’en tenait aux résultats fournis par les deux premières composantes de l’ACP.

Résultats de la CAH

L’intérêt de la CAH (critère de Ward) est donc précisément de fournir une vision complète des proximités entre les individus en tenant compte de toute l’information et pas seulement de celle qui est fournie par les premiers axes factoriels de l’ACP.

Combien de classes ?

L’arbre de classification a été ici coupé en trois classes de façon à opérer le meilleur compromis possible entre deux exigences contradictoires :

conserver le maximum d’information
résumer en un miniumum de classes

Pour bien comprendre la contradiction, on peut considérer deux cas limites :

si nous avions fait 9 classes (autant que d’individus), nous aurions certes conseré toute l’information mais nous n’aurions effectué aucun résumé.
si nous avions fait une seule classe, nous aurions résumé au mieux l’information mais nous n’aurions rien appris.

Le choix du nombre de classe est donc toujours une question délicate qui demande une part d’intuition. On peut toutefois s’aider du tableau et de l’histogramme des quantités d’inertie (de variance) que l’on aura pris en compte selon que l’on choisit 2, 3 ou 4 classes :

Le principe général consiste à couper l’arbre après un “saut” dans l’histogramme. On voit ici que le saut principal se produit après la deuxième barre de l’histogramme ce qui signifie qu’une partition en 3 classes est un bon choix. Mais on aurait également pu retenir une partition en deux classes ou quatre classes.

Profil des classes

Une fois établies nos classes, il faut apprendre à les interpréter en repérant ce qui les caractérise. Les différents logiciels de statistiques offrent des aides à l’interprétation qui seront vues en TD. Nous nous bornons donc juste ici à indiquer à titre d’exemple les aides fournies par FactoMineR :


Link between the cluster variable and the quantitative variables
================================================================
             Eta2      P-value
Animaux 0.9471471 0.0001476412
Sucres  0.9249708 0.0004223683
Divers  0.8327391 0.0046793264
Légumes 0.6516018 0.0422890360
Huiles  0.6390547 0.0470244875

Description of each cluster by quantitative variables
=====================================================
$`1`
           v.test Mean in category  Overall mean sd in category Overall sd
Légumes  2.244208        1.0579296  4.934325e-17      0.9452337   0.942809
Huiles  -2.059367       -0.9707947 -1.850372e-17      0.5008981   0.942809
Animaux -2.193711       -1.0341255  4.934325e-17      0.0535579   0.942809
Sucres  -2.689751       -1.2679610 -6.167906e-18      0.1208256   0.942809
            p.value
Légumes 0.024819045
Huiles  0.039459132
Animaux 0.028256159
Sucres  0.007150525

$`2`
           v.test Mean in category  Overall mean sd in category Overall sd
Céréales 2.204936         1.375019 -2.220446e-16      0.6892538   0.942809
            p.value
Céréales 0.02745862

$`3`
          v.test Mean in category  Overall mean sd in category Overall sd
Animaux 2.675402        0.9970633  4.934325e-17      0.3057811   0.942809
Divers  2.559798        0.9539802  7.401487e-17      0.3029089   0.942809
Huiles  2.025554        0.7548794 -1.850372e-17      0.7145518   0.942809
Sucres  2.015794        0.7512420 -6.167906e-18      0.3727962   0.942809
            p.value
Animaux 0.007463978
Divers  0.010473315
Huiles  0.042810503
Sucres  0.043821528

Les résultats et le graphique ci-dessus nous indiquent que :

la classe 1 regroupe des régions qui consomment significativement plus de légumes et significativement moins d’huiles, d’animaux et de sucre que les autres.
la classe 2 regroupe des régions qui consomment significativement plus de céréales que les autres.
la classe 3 regroupe des régions qui consomment significativement plus d’animaux, de produits divers, d’huile et de sucre que les autres

Lien entre ACP et CAH

on peut finalement relier ACP et CAH en superposant l’arbre de classification sur le plan factoriel des axes 1 et 2.

On peut alors constater que l’opposition entre les classes 1 et 3 correspond aux différences exprimées par l’axe 1 entre pays à forte consommation de légume et pays à forte consommation de viandes, huiles, sucres et produit divers. Quant à la classe 2, elle se démarque principalement sur l’axe 2 qui correspond à une forte part de céréales dans le régime alimentaire et des niveaux proches de la moyenne sur les autres critères.

Introduction

Une dimension

Distance absolue

Distance relative

Distance logarithmique

Distance euclidienne (au carré)

Partition optimale en deux classes

Partition optimale en k-classes

Deux dimensions

Distance euclidienne non normée

Matrice de distance

Classification k-means

Classification ascendante hiérarchique

Distance euclidienne normée

Distance

Classification k-means

Classification ascendante hiérarchique

Méthode de Ward

k Dimensions

Matrice de distance

Résultats de l’ACP normée

Résultats de la CAH

Combien de classes ?

Profil des classes

Lien entre ACP et CAH

Bibliographie