Exo3 : Scolarisation en Côte d’Ivoire en 2018 (ACM)

Author

Ané Landry Tanoh

Introduction

Le but de cet exercice est :

  1. De montrer les commandes R permettant de réaliser une Analayse Correspondances Multiples (ACM) sous R
  2. D’apprendre à interpréter les résultats de cette ACM
  3. De discuter les prolongements possibles, notamment à travers des modèles de régression logistique ou multi-niveau.

En préalable à cet exercice il est indispensable d’avoir bien maîtrisé les fondements théoriques des deux méthodes d’ACM et de CAH sur facteurs issus de l’ACM. Ces enseignements n’étant pas détaillé sur le présent site, nous recommandons de se reporter au MOOC de cours de François Husson en suivant les liens suivants

Données

Fichier original

On charge un tableau d’enquête issu de la thèse d’Ané Tanoh Landry portant sur la scolarisation des enfants dans quatre départements du Nord-Ouest de la Côte d’Ivoire en 2018.

Sélection des variables

On retient 5 variables “actives” décrivant les modes de scolarisation des enfants et 4 variables “supplémentaires” décrivant le contexte familial et spatial du ménage.

Le tableau à analyser par ACM se compose donc de 9 variables catégorielles comportant deux modalités ou plus.

Les variables retenues sont organisées en trois groupes

A. Scolarisation - TRA : les enfants travaillent (O/N) - MMQ : la famille manque de moyens financiers (O/N) - AID : les enfants aident la famille (O/N) - ECO : il y a une école dans la localité (O/N) - PAR : les enfants sont scolarisés de façon paritaire (O/N)

B. Contexte familial - SEX : sexe du chef de méngae (H/F) - EDU : niveau d’éducation du chef de ménage (AUC = aucun, PRI = primaire, SEC = secondaire ou supérieur)

C. Contexte spatial - MIL : milieu urbain ou rural (Urb/Rur) - DEP : Département (4 modalités)

TRA MMF AID ECO PAR SEX EDU DEP MIL
O O N Non Oui F PRI Poro Urb
N O O Oui Non H PRI Poro Urb
N O O Oui Non H AUC Poro Urb
N O O Oui Non F AUC Poro Urb
N O O Oui Non F AUC Poro Urb
N O O Oui Non H PRI Poro Urb

Résumé des variables

 TRA     MMF     AID      ECO       PAR      SEX      EDU              DEP     
 O:312   O:443   O:544   Oui:463   Oui: 51   H:406   AUC:393   Bagoué    :166  
 N:288   N:157   N: 56   Non:137   Non:549   F:194   PRI:152   Folon     : 55  
                                                     SEC: 55   Kabadougou: 75  
                                                               Poro      :304  
  MIL     
 Urb:289  
 Rur:311  
          
          

Tableau disjonctif complet

Pour pouvoir réaliser une ACM, on transforme ce tableau initial en tableau disjonctif complet pour réaliser une analyse des correspondances multiples. L’opération se fait de façon implicite dans FactoMineR mais on peut la rendre visible.

  TRA_O TRA_N MMF_O MMF_N AID_O AID_N ECO_Oui ECO_Non PAR_Oui PAR_Non H F AUC
1     1     0     1     0     0     1       0       1       1       0 0 1   0
2     0     1     1     0     1     0       1       0       0       1 1 0   0
3     0     1     1     0     1     0       1       0       0       1 1 0   1
4     0     1     1     0     1     0       1       0       0       1 0 1   1
5     0     1     1     0     1     0       1       0       0       1 0 1   1
6     0     1     1     0     1     0       1       0       0       1 1 0   0
  PRI SEC Bagoué Folon Kabadougou Poro Urb Rur
1   1   0      0     0          0    1   1   0
2   1   0      0     0          0    1   1   0
3   0   0      0     0          0    1   1   0
4   0   0      0     0          0    1   1   0
5   0   0      0     0          0    1   1   0
6   1   0      0     0          0    1   1   0

Comme on peut le constater le tableau a conservé le même nombre de ligne (600) mais il comporte désormais plus de colonne puisque chaque variable initiale a été transformée en autant de variables booléennes (0/1) qu’elle avait de modalité. Par exemple, la variable TRA qui comportait deux modalités O et N est remplacée par les deux variables TRA_O et TRA_N. La variable EDU qui comportait trois modalités donne naissance à trois variables, etc.

Analyse des Correspondances Multiples (ACM)

Elle est facile à réaliser avec FactomineR et peut être obtenue de deux façons différentes (avec des résultats identiques)

  • en appliquant la fonction CA() au tableau disjonctif complet ou
  • en executant directement la fonction MCA() sur le tableau des variables catégorielles.
Warning: ggrepel: 1 unlabeled data points (too many overlaps). Consider
increasing max.overlaps

Comme on peut le constater, les plans factoriels obtenus sont identiques quelle que soit la procédure choisie. On notera que les axes factoriels sont élaborés uniquement par la prise en compte des variables actives (TRA, MMF, AID, ECO, PAR). Les variables supplémentaires qui décrivent le contexte familial (SEX, EDU) ou spatial (DEP, MIL) sont projetées dans le plan des variables actives ce qui permet de voir leur proximité ou leur opposition avec celles-ci. Mais elles n’ont aucune influence sur la constitution des axes factoriels de l’ACM.

  • N.B. : Les praticiens de l’ACM ne sont pas tous d’accord sur la stratégie à adopter concernant les variables contextuelles. Certains préfèrent les ajouter en variables supplémentaires (solution adoptée ici) tandis que d’autres préfèrent les inclures avec les variables actives estimant qu’on peut ainsi mieux juger du phénomène social d’ensemble. Une solution médiane consiste à comparer les deux types d’analyse et d’évaluer leurs apports respectifs à la comprhension du phénomène étudié.

Valeurs propres

Tableau des valeurs propres
Valeur propre % variance % variance cumulée
dim 1 0.44 43.69 43.69
dim 2 0.21 21.30 64.99
dim 3 0.16 16.05 81.04
dim 4 0.12 11.60 92.64
dim 5 0.07 7.36 100.00

Comme dans les autres types d’analyse factorielle, il est important d’examiner les valeurs propres des différents axes factoriels pour décider combien méritent d’être interprétés. Dans l’exemple retenu, les deux premiers axes factoriels ne résument “que” les deux tiers de l’information (65%) ce qui semble peu. Mais en pratique il s’agit d’un résultat très élevé pour une ACM où l’éclatement des variables en modalités multiples conduit souvent à des scores beaucoup plus faibles.

Coordonnées et contribution des variables aux axes

Coordonnées et contributions des variables aux axes 1-4
coo_1 ctr_1 coo_2 ctr_2
TRA_O -0.54 7.02 -0.20 1.90
TRA_N 0.59 7.60 0.21 2.06
MMF_O -0.42 6.04 -0.20 2.78
MMF_N 1.19 17.04 0.56 7.84
AID_O -0.27 3.06 0.04 0.12
AID_N 2.64 29.69 -0.36 1.13
ECO_Oui 0.07 0.16 -0.51 18.54
ECO_Non -0.23 0.55 1.71 62.67
PAR_Oui 2.60 26.38 -0.58 2.71
PAR_Non -0.24 2.45 0.05 0.25

L’interprétation des axes est ici plus complexe que dans le cadre d’une ACP puisque les variables catégorielles initiales ont été éclatées en plusieurs variables booléennes. Il est donc essentiel de bien prendre en compte les contributions de chaque modalité d’une variable pour juger de son rôle par rapport à un axe factoriel.

  • L’axe 1 est ainsi déterminée principalement par les variables AID, MMF et PAR. Il oppose schématiquement des ménages où les enfants ne travaillent pas, n’aident pas la famille et sont scolarisés de façn paritaire à ceux qui présentent les caractéristiques inverse. On devine aisément que cette première dimension oppose des familles urbaines et aisées à des familles pauvres et rurales, ce qui sera confirmé par l’étude des variables supplémentaires.

  • L’axe 2 est quant à lui essentiellement déterminé par la présence ou l’absence d’une école dans la localité, ce qui signifie que cette variable est globalement indépendante des autres facteurs présent sur l’axe 1. On en déduit que les inégalités sociales présentes sur le premier axe en recoupent pas directement les inégalités sptiales visibles sur ce deuxième axe. Le fait que la scolarisation soit paritaire ou non n’est pas lié à la présence d’une école.

Plan factoriel des variables actives et supplémentaires.

Le plan factoriel des axes 1 et 2 permet de résumer les observations précédentes mais aussi d’y ajouter un certain nombre d’observations sur les variables contextuelles. On remarque ainsi que les chefs de ménage ayant des niveaux de diplôme élevé sont clairement associés positivement à l’axe 1 c’est-à-dire à l’absence de travail des enfants et à une scolarisation paritaire. Quant à la présence d’une école, elle semble davantage lié à la situation urbaine ou rurale mais aussi à une opposition entre le département de Bagoue (où la présence d’école est plus forte) et les trois autres départements (où les écoles sont moins fréquentes).

Prolongements possibles

Classification

L’analyse pourrait se poursuivre par la réalisation d’une classification visant à regrouper les ménages précédant des profils similaires. Celle-ci pourrait facilement être mise en oeuvre à partir des axes factoriels de l’ACM, mettant en évidence 3 grands types de profils correspondant aux différentes positions dans le plan factoriel.

Mais cette analyse serait plus pertinente si elle était menée sur un plus grand nombre d’attribut des ménages. Car on voit clairement ici que beaucoup de ménages occupent les mêmes positions et ont exactement les mêmes attributs.

Régression logistique

Une autre approche pourrait consister, à partir des résultats de l’ACM, à retenir une variable particulièrement digne d’intérêt et à chercher à prédire sa valeur en fonction d’autres variables associées. On pourrait typiquement essayer de modéliser la variable (PAR) éducation paritaire en fonction des variables dont nous avons vu qu’elles lui sont probablement associées positivement ou négativement.


Call:
glm(formula = PAR ~ TRA + MMF + AID + ECO + SEX + EDU + MIL + 
    DEP, family = "binomial", data = tab)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.2222   0.0968   0.1110   0.2833   1.8476  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)    5.19476    0.82659   6.285 3.29e-10 ***
TRAN           0.09923    0.55882   0.178 0.859054    
MMFN          -0.83346    0.55553  -1.500 0.133543    
AIDN          -2.39207    0.48562  -4.926 8.40e-07 ***
ECONon         0.34901    0.76293   0.457 0.647337    
SEXF           0.17551    0.49616   0.354 0.723528    
EDUPRI        -2.36191    0.68432  -3.451 0.000558 ***
EDUSEC        -3.21147    0.82173  -3.908 9.30e-05 ***
MILRur        -0.36362    0.47655  -0.763 0.445442    
DEPFolon       1.10032    0.92247   1.193 0.232951    
DEPKabadougou  0.53097    0.75348   0.705 0.481000    
DEPPoro       -0.10836    0.52974  -0.205 0.837922    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 348.98  on 599  degrees of freedom
Residual deviance: 178.20  on 588  degrees of freedom
AIC: 202.2

Number of Fisher Scoring iterations: 7

Confirmant les résultats de l’ACM, le modèle logit montre ici que parmi l’ensemble des variables retenues, seuls le niveau d’éducation du chef de ménage et le fait d’aider la famille ont un impact significatif sur le fait d’accorder une éducation paritaire aux filles et aux garçons.