Exo3 : Scolarisation en Côte d’Ivoire en 2018 (ACM)
Introduction
Le but de cet exercice est :
- De montrer les commandes R permettant de réaliser une Analayse Correspondances Multiples (ACM) sous R
- D’apprendre à interpréter les résultats de cette ACM
- De discuter les prolongements possibles, notamment à travers des modèles de régression logistique ou multi-niveau.
En préalable à cet exercice il est indispensable d’avoir bien maîtrisé les fondements théoriques des deux méthodes d’ACM et de CAH sur facteurs issus de l’ACM. Ces enseignements n’étant pas détaillé sur le présent site, nous recommandons de se reporter au MOOC de cours de François Husson en suivant les liens suivants
Données
Fichier original
On charge un tableau d’enquête issu de la thèse d’Ané Tanoh Landry portant sur la scolarisation des enfants dans quatre départements du Nord-Ouest de la Côte d’Ivoire en 2018.
Sélection des variables
On retient 5 variables “actives” décrivant les modes de scolarisation des enfants et 4 variables “supplémentaires” décrivant le contexte familial et spatial du ménage.
Le tableau à analyser par ACM se compose donc de 9 variables catégorielles comportant deux modalités ou plus.
Les variables retenues sont organisées en trois groupes
A. Scolarisation - TRA : les enfants travaillent (O/N) - MMQ : la famille manque de moyens financiers (O/N) - AID : les enfants aident la famille (O/N) - ECO : il y a une école dans la localité (O/N) - PAR : les enfants sont scolarisés de façon paritaire (O/N)
B. Contexte familial - SEX : sexe du chef de méngae (H/F) - EDU : niveau d’éducation du chef de ménage (AUC = aucun, PRI = primaire, SEC = secondaire ou supérieur)
C. Contexte spatial - MIL : milieu urbain ou rural (Urb/Rur) - DEP : Département (4 modalités)
TRA | MMF | AID | ECO | PAR | SEX | EDU | DEP | MIL |
---|---|---|---|---|---|---|---|---|
O | O | N | Non | Oui | F | PRI | Poro | Urb |
N | O | O | Oui | Non | H | PRI | Poro | Urb |
N | O | O | Oui | Non | H | AUC | Poro | Urb |
N | O | O | Oui | Non | F | AUC | Poro | Urb |
N | O | O | Oui | Non | F | AUC | Poro | Urb |
N | O | O | Oui | Non | H | PRI | Poro | Urb |
Résumé des variables
TRA MMF AID ECO PAR SEX EDU DEP
O:312 O:443 O:544 Oui:463 Oui: 51 H:406 AUC:393 Bagoué :166
N:288 N:157 N: 56 Non:137 Non:549 F:194 PRI:152 Folon : 55
SEC: 55 Kabadougou: 75
Poro :304
MIL
Urb:289
Rur:311
Tableau disjonctif complet
Pour pouvoir réaliser une ACM, on transforme ce tableau initial en tableau disjonctif complet pour réaliser une analyse des correspondances multiples. L’opération se fait de façon implicite dans FactoMineR mais on peut la rendre visible.
TRA_O TRA_N MMF_O MMF_N AID_O AID_N ECO_Oui ECO_Non PAR_Oui PAR_Non H F AUC
1 1 0 1 0 0 1 0 1 1 0 0 1 0
2 0 1 1 0 1 0 1 0 0 1 1 0 0
3 0 1 1 0 1 0 1 0 0 1 1 0 1
4 0 1 1 0 1 0 1 0 0 1 0 1 1
5 0 1 1 0 1 0 1 0 0 1 0 1 1
6 0 1 1 0 1 0 1 0 0 1 1 0 0
PRI SEC Bagoué Folon Kabadougou Poro Urb Rur
1 1 0 0 0 0 1 1 0
2 1 0 0 0 0 1 1 0
3 0 0 0 0 0 1 1 0
4 0 0 0 0 0 1 1 0
5 0 0 0 0 0 1 1 0
6 1 0 0 0 0 1 1 0
Comme on peut le constater le tableau a conservé le même nombre de ligne (600) mais il comporte désormais plus de colonne puisque chaque variable initiale a été transformée en autant de variables booléennes (0/1) qu’elle avait de modalité. Par exemple, la variable TRA qui comportait deux modalités O et N est remplacée par les deux variables TRA_O et TRA_N. La variable EDU qui comportait trois modalités donne naissance à trois variables, etc.
Analyse des Correspondances Multiples (ACM)
Elle est facile à réaliser avec FactomineR
et peut être obtenue de deux façons différentes (avec des résultats identiques)
- en appliquant la fonction CA() au tableau disjonctif complet ou
- en executant directement la fonction MCA() sur le tableau des variables catégorielles.
Warning: ggrepel: 1 unlabeled data points (too many overlaps). Consider
increasing max.overlaps
Comme on peut le constater, les plans factoriels obtenus sont identiques quelle que soit la procédure choisie. On notera que les axes factoriels sont élaborés uniquement par la prise en compte des variables actives (TRA, MMF, AID, ECO, PAR). Les variables supplémentaires qui décrivent le contexte familial (SEX, EDU) ou spatial (DEP, MIL) sont projetées dans le plan des variables actives ce qui permet de voir leur proximité ou leur opposition avec celles-ci. Mais elles n’ont aucune influence sur la constitution des axes factoriels de l’ACM.
- N.B. : Les praticiens de l’ACM ne sont pas tous d’accord sur la stratégie à adopter concernant les variables contextuelles. Certains préfèrent les ajouter en variables supplémentaires (solution adoptée ici) tandis que d’autres préfèrent les inclures avec les variables actives estimant qu’on peut ainsi mieux juger du phénomène social d’ensemble. Une solution médiane consiste à comparer les deux types d’analyse et d’évaluer leurs apports respectifs à la comprhension du phénomène étudié.
Valeurs propres
Valeur propre | % variance | % variance cumulée | |
---|---|---|---|
dim 1 | 0.44 | 43.69 | 43.69 |
dim 2 | 0.21 | 21.30 | 64.99 |
dim 3 | 0.16 | 16.05 | 81.04 |
dim 4 | 0.12 | 11.60 | 92.64 |
dim 5 | 0.07 | 7.36 | 100.00 |
Comme dans les autres types d’analyse factorielle, il est important d’examiner les valeurs propres des différents axes factoriels pour décider combien méritent d’être interprétés. Dans l’exemple retenu, les deux premiers axes factoriels ne résument “que” les deux tiers de l’information (65%) ce qui semble peu. Mais en pratique il s’agit d’un résultat très élevé pour une ACM où l’éclatement des variables en modalités multiples conduit souvent à des scores beaucoup plus faibles.
Coordonnées et contribution des variables aux axes
coo_1 | ctr_1 | coo_2 | ctr_2 | |
---|---|---|---|---|
TRA_O | -0.54 | 7.02 | -0.20 | 1.90 |
TRA_N | 0.59 | 7.60 | 0.21 | 2.06 |
MMF_O | -0.42 | 6.04 | -0.20 | 2.78 |
MMF_N | 1.19 | 17.04 | 0.56 | 7.84 |
AID_O | -0.27 | 3.06 | 0.04 | 0.12 |
AID_N | 2.64 | 29.69 | -0.36 | 1.13 |
ECO_Oui | 0.07 | 0.16 | -0.51 | 18.54 |
ECO_Non | -0.23 | 0.55 | 1.71 | 62.67 |
PAR_Oui | 2.60 | 26.38 | -0.58 | 2.71 |
PAR_Non | -0.24 | 2.45 | 0.05 | 0.25 |
L’interprétation des axes est ici plus complexe que dans le cadre d’une ACP puisque les variables catégorielles initiales ont été éclatées en plusieurs variables booléennes. Il est donc essentiel de bien prendre en compte les contributions de chaque modalité d’une variable pour juger de son rôle par rapport à un axe factoriel.
L’axe 1 est ainsi déterminée principalement par les variables AID, MMF et PAR. Il oppose schématiquement des ménages où les enfants ne travaillent pas, n’aident pas la famille et sont scolarisés de façn paritaire à ceux qui présentent les caractéristiques inverse. On devine aisément que cette première dimension oppose des familles urbaines et aisées à des familles pauvres et rurales, ce qui sera confirmé par l’étude des variables supplémentaires.
L’axe 2 est quant à lui essentiellement déterminé par la présence ou l’absence d’une école dans la localité, ce qui signifie que cette variable est globalement indépendante des autres facteurs présent sur l’axe 1. On en déduit que les inégalités sociales présentes sur le premier axe en recoupent pas directement les inégalités sptiales visibles sur ce deuxième axe. Le fait que la scolarisation soit paritaire ou non n’est pas lié à la présence d’une école.
Plan factoriel des variables actives et supplémentaires.
Le plan factoriel des axes 1 et 2 permet de résumer les observations précédentes mais aussi d’y ajouter un certain nombre d’observations sur les variables contextuelles. On remarque ainsi que les chefs de ménage ayant des niveaux de diplôme élevé sont clairement associés positivement à l’axe 1 c’est-à-dire à l’absence de travail des enfants et à une scolarisation paritaire. Quant à la présence d’une école, elle semble davantage lié à la situation urbaine ou rurale mais aussi à une opposition entre le département de Bagoue (où la présence d’école est plus forte) et les trois autres départements (où les écoles sont moins fréquentes).
Prolongements possibles
Classification
L’analyse pourrait se poursuivre par la réalisation d’une classification visant à regrouper les ménages précédant des profils similaires. Celle-ci pourrait facilement être mise en oeuvre à partir des axes factoriels de l’ACM, mettant en évidence 3 grands types de profils correspondant aux différentes positions dans le plan factoriel.
Mais cette analyse serait plus pertinente si elle était menée sur un plus grand nombre d’attribut des ménages. Car on voit clairement ici que beaucoup de ménages occupent les mêmes positions et ont exactement les mêmes attributs.
Régression logistique
Une autre approche pourrait consister, à partir des résultats de l’ACM, à retenir une variable particulièrement digne d’intérêt et à chercher à prédire sa valeur en fonction d’autres variables associées. On pourrait typiquement essayer de modéliser la variable (PAR) éducation paritaire en fonction des variables dont nous avons vu qu’elles lui sont probablement associées positivement ou négativement.
Call:
glm(formula = PAR ~ TRA + MMF + AID + ECO + SEX + EDU + MIL +
DEP, family = "binomial", data = tab)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.2222 0.0968 0.1110 0.2833 1.8476
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 5.19476 0.82659 6.285 3.29e-10 ***
TRAN 0.09923 0.55882 0.178 0.859054
MMFN -0.83346 0.55553 -1.500 0.133543
AIDN -2.39207 0.48562 -4.926 8.40e-07 ***
ECONon 0.34901 0.76293 0.457 0.647337
SEXF 0.17551 0.49616 0.354 0.723528
EDUPRI -2.36191 0.68432 -3.451 0.000558 ***
EDUSEC -3.21147 0.82173 -3.908 9.30e-05 ***
MILRur -0.36362 0.47655 -0.763 0.445442
DEPFolon 1.10032 0.92247 1.193 0.232951
DEPKabadougou 0.53097 0.75348 0.705 0.481000
DEPPoro -0.10836 0.52974 -0.205 0.837922
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 348.98 on 599 degrees of freedom
Residual deviance: 178.20 on 588 degrees of freedom
AIC: 202.2
Number of Fisher Scoring iterations: 7
Confirmant les résultats de l’ACM, le modèle logit montre ici que parmi l’ensemble des variables retenues, seuls le niveau d’éducation du chef de ménage et le fait d’aider la famille ont un impact significatif sur le fait d’accorder une éducation paritaire aux filles et aux garçons.