CODE | NOM | PRE | ALT | DIS | ABR | LAT | LNG |
---|---|---|---|---|---|---|---|
1 | EUREKA | 1010 | 10 | 2 | NON | 40.8 | -124.2 |
2 | RED-BLUFF | 590 | 100 | 155 | OUI | 40.2 | -122.2 |
3 | THERMAL | 460 | 1270 | 112 | OUI | 33.8 | -116.2 |
4 | FORT-BRAGG | 950 | 20 | 2 | NON | 39.4 | -123.8 |
5 | SODA-SPRING | 1250 | 2060 | 240 | NON | 39.3 | -120.4 |
6 | SAN-FRANCISCO | 550 | 20 | 8 | NON | 37.8 | -122.5 |
7 | SACRAMENTO | 460 | 10 | 128 | OUI | 38.5 | -121.5 |
8 | SAN-JOSE | 360 | 30 | 45 | OUI | 37.4 | -121.9 |
9 | GIANT-FOREST | 1080 | 1940 | 232 | NON | 36.6 | -118.7 |
10 | SALINAS | 350 | 20 | 19 | OUI | 36.7 | -121.6 |
11 | FRESNO | 240 | 100 | 182 | OUI | 36.7 | -119.8 |
12 | Pt-PIEDRAS | 490 | 20 | 2 | NON | 35.7 | -121.3 |
13 | PASA-ROBLES | 400 | 230 | 50 | OUI | 35.7 | -120.7 |
14 | BAKERSFIELD | 150 | 150 | 120 | OUI | 35.4 | -119.0 |
15 | BISHOP | 150 | 1250 | 317 | OUI | 37.3 | -118.4 |
16 | MINERAL | 1210 | 1480 | 227 | NON | 40.4 | -121.6 |
17 | SANTA-BARBARA | 460 | 40 | 2 | NON | 34.4 | -119.7 |
18 | SUSANVILLE | 460 | 1270 | 317 | OUI | 40.3 | -120.6 |
19 | TULE-LAKE | 250 | 1230 | 224 | OUI | 41.9 | -121.5 |
20 | NEEDLES | 120 | 280 | 307 | OUI | 34.8 | -114.6 |
21 | BURBANK | 370 | 210 | 75 | NON | 34.2 | -118.3 |
22 | LOS-ANGELES | 380 | 100 | 26 | NON | 34.1 | -118.3 |
23 | LONG-BEACH | 310 | 20 | 19 | NON | 33.8 | -118.2 |
24 | LOS-BANOS | 210 | 40 | 118 | OUI | 37.8 | -118.1 |
25 | BLYTHE | 100 | 80 | 248 | OUI | 33.6 | -114.6 |
26 | SAN-DIEGO | 250 | 10 | 8 | NON | 32.7 | -117.2 |
27 | DAGGET | 110 | 640 | 136 | OUI | 34.1 | -116.9 |
28 | DEATH-VALLEY | 40 | -50 | 310 | OUI | 36.5 | -116.4 |
29 | CRESCENT-CITY | 1900 | 10 | 2 | NON | 41.7 | -124.2 |
30 | COLUSA | 410 | 20 | 146 | OUI | 39.2 | -122.0 |
Introduction : Les précipitations en Californie
Objectif
L’objectif de ce chapitre introductif est de présenter de façon non technique les objectifs du module en s’appuyant sur un célèbre exemple pédagogique mis au point par le géographe P.J. Taylor en 1980. Bien qu’il ne concerne pas directement les pays africains ou la France, cet exemple a été retenu pour l’EE CIST 2023 car l’expérience montre qu’il est particulièrement efficace pour l’apprentissage des mécanismes logiques de construction d’un modèle de régression multiple. La publication originale étant difficile à trouver, nous avons créé un lien sur le site de l’EE pour son téléchargement mais nous en rappelons ici la référence complète :
- P. J. Taylor, 1980, A Pedagogic Application of Multiple Regression Analysis: Precipitation in California, Geography ,Vol. 65, No. 3, pp. 203-212 Published by: Geographical Association, https://www.jstor.org/stable/40569273
Toute en reprenant l’essentiel de la démonstration de l’auteur, nous allons toutefois adapter sa démarche sur plusieurs points :
- traduction en français (!)
- développement plus important de la partie univariée
- reprise de la cartographie initiale de l’article
- réalisation de tous les calculs avec R
A. Introduction
Objectifs de la régression multiple
La régression multiple est une méthode permettant de décrire comment les variations d’une phénomène sont reliés aux variations d’un ou plusieur autres phénomènes. On suppose en général que le premier phénomène est la variable à expliquer (qui sera notée \(Y\)) et que les autres phénomènes sont des variables explicatives (qui seront notées \(X_1...X_n\)). On suppose donc que les variations de ces variables explicatives “produisent”, “déterminent” ou même “causent” les variations de la variable à expliquer.
Corrélation et causalité
Dans l’exemple qui va suivre, les relations de causalité sont assez faciles à démontrer car elles reposent sur des phénomènes physiques bien établis tels que le refroidissement de la température avec l’altitude ou la direction générale de la circulation des masses d’air d’ouest en est dans les zones de moyenne latitude. Mais il faut d’emblée souligner que dans les exemples qui seront analysés par la suite de ce chapitre on sera confronté à des situations moins simples et pour lesquelles il n’est pas toujours évident d’identifier de façon absolue le sens de la relation de causalité entre la variable \(Y\) et les autres variables \(X_1...X_n\). Dans certains cas, on est plutôt en situation de covariation ce qui signifie que l’onpeut prédire la valeur d’un indicateur en fonction d’un autre sans pour autant pouvoir affirmer avec certitude lequel est la cause et l’autre la conséquence.
Une approche non technique
Le but de ce chapitre d’introduction est de présenter le principe de la régression multiple de façon volontairement non technique afin de permettre aux étudiants de comprendre les rudiments de la méthode sans être immédiatement forcés d’en saisir les détails dans toute leur sophistication. Dit autrement , il s’agit de leur donner envie d’apprendre la technique en leur faisant saisir de façon intuitive tout son intérêt et toute sa puissance.
Un problème exemplaire
Bien que l’exemple retenu par P.J. Taylor n’ait pas d’ambition scientifique (il concerne des faits bien connus des géographes et des climatologues), il est suffisamment exemplaire pour apparaître d’emblée intéressant à l’ensemble des géographes et - nous l’espérons - des chercheurs d’autres disciplines. Les prédictions météorologiques sont en effet un souci quotidien dans l’ensemble des pays du monde et les précipitations ont une importance de plus en plus vitale dans une période d’accélération du changement climatique.
Il serait d’ailleurs intéressant de voir si on peut au cours de l’EE CIST 2023 actualiser les données de Taylor à près d’un demi-siècle de distance. Il fait en effet peu de doute que les préciptations en Californie ont certainement beaucoup changé depuis les années 1970…
B. Données
Dans cette section, nous présentons les variables contenues dans le tableau de données, la localisatiion géographique des stations et enfin les hypothèses concernant les relations de causalité ou de covariations.
Le tableau de données
Le tableau original de Taylor (1980) a été légèrement modifié afin de le rendre plus familier pour des lecteurs francophones. Il s’agit uniquement de transformation des unités de mesure afin que les précipitations soient désormais en millimètres (et non pas en pouces), les altitudes en mètres (et non pas en pieds), les distances à la mer en (kilomètres) et non pas en miles. Ces transformations ne modifient normalement pas les résultats mais facilitent la transmission pour un public moins familier des mesures anglo-saxonnes.
- CODE : Code de la station
- NOM : Nom de la station
- PRE : Précipitations annuelles (en millimètres)
- ALT : Altitude (en mètres)
- DIS : Distance à la mer (en kilomètres)
- ABR : Situation d’abri par rapport aux vents dominants
- LAT : Latitude (en degrés décimaux de latitude nord)
- LNG : Longitude (en dégrés décimaux)
Localisation
Les différentes stations météorologiques peuvent être localisées sur une carte interactive si on dispose d’une connexion internet et si le document est enregistré au format .html. Il suffit alors de cliquer sur une station pour retrouver l’ensemble des informations du tableau. On aplacé en fonds d’écran un fonds de carte indiquant le relief ce qui permet de mieux comprendre la signification de la variable ABR qui indique si la station est face au vent d’ouest (ABR = “Non”) ou si elle se trouve sur un versant qui tourne le dos à la mer et reçois alors moins de précipitations (ABR = “Oui”).
Dans le cas où l’on ne dispose pas de connexion internet, on se contentera d’une carte statique indiquant juste la position des stations avec leur code.
Carte des précipitations
La carte des précipitations ne montrent pas de schéma spatial d’organisation très évident de prime abord. La station n° 29 qui affiche les précipitations maximales (Crescent City, 1900 mm) se situe sur la côte au nord-ouest tandis que la station n°28 qui affiche les précipitations les plus faibles se situe à l’intérieur au sud-est (Death Valley, 40 mm). Entre ces deux extrêmes, on trouve de fortes différences entre stations parfois très proches dans l’espace. Ainsi, la station n°9 (Giant Forest) reçoit 1080 mm de pluie par an alors que la station n°11 (Fresno) qui est située à moins de 100 km ne reçoit que 240 mm par an.
C. Hypothèses bivariées
Dans le cadre de l’exemple des précipitations en Californie, on peut émettre un certain nombre d’hypothèses causales sur les déterminants des précipitations qui obéissent aux règles du cycle de l’eau dans les régions de moyenne latitude soumises à une circulation dominante des masses d’airs d’ouest en est. L’exemple serait évidemment différent si l’on analysait les précipitations dans des régions de hautes ou basses latitudes.
Le cycle de l’eau dans les régions de moyenne latitude
H1 : Les précipitations augmentent avec l’altitude**
Le phénomène s’explique par la diminution de la température de -0.6°C tous les 100 mètres. Une masse d’air chargée d’une certaine quantité d’humidité va se transformer en pluie lorsque la température sera descendue en dessous d’un certain seuil. Cette hypothèse est-elle vérifiée sur le plan statistique
On décèle en effet une légère tendance à l’accroissement des précipitations avec l’altitude, mais la relation observée n’est pas très forte et comporte de nombreuses exceptions. Au total, on ne peut mettre en évidence un effet significatif.
H2 : Les précipitations augmentent avec la latitude
Dans le cas de la Californie qui est très étirée dans le sens Nord-Sud, les précipitations seront en moyenne plus importante au Nord qu’au Sud car les dépressions d’Ouest y circulent plus fréquemment. Cette hypothèse est-elle vérifiée sur le plan statistique ?
Nous obtenons une relation beaucoup plus forte que précédemment qui est nettement significative (r = 0.58, p <0.001). Il demeure certes des résidus important et l’on peut être par exemple intrigué par le cas des stations n°19 (Tule Lake) et n°29 (Crescent City) qui affichent des différences considérables de précipitations alors qu’elles sont situées pratiquement à la même latitude.
H3 : les précipitations diminuent avec le distance à la mer
Les masses d’airs circulant d’Ouest en Est vont perdre progressivement leur charge en humidité sur les premiers reliefs qu’elles vont rencontrer. Les chaînes de montagne éloignées de la côte recevront moins de précipitations à altitude égale.
La relation est bien négative comme nous l’avions prévu mais elle demeure nettement trop faible pour être significative (r = -0.21, p = 0.27). En dehors de l’exception remarquable constituée par la station n°29 (Crescent City), on remarque le groupe des stations n°5 (Soda Springs), 9 (Giant Forest) et 16 (Mineral) qui sont toutes caractérisées par un fort niveau de précipitation alors même qu’elles sont éloignées de plus de 200 km de la mer. Un retour au tableau montre que toutes ces stations ont pour point commun d’être localisée à une altitude supérieure à 1000 mètres. On peut alors commencer à deviner que si l’altitude et la distancd à la mer ne so,nt pas significatives de façon isolée, elles vont peut-être le devenir si on les combine ensemble.
H4 : Les stations en situation d’abri reçoivent moins de précipitation
En effet les nuages tendent à déverser leur pluie sur le premier versant tournée vers la mer et arrosent moins les versants qui lui tournent le dos ou les dépressions.
Cette dernière hypothèse est un peu différente des précédentes puisqu’elle met en jeu une variable qualitative de type binaire, mais on peut comparer ses résultats avec les précédents en utilisant une astuce statistique consistant à transformer les modalités “OUI” en 1 et les modalités “NON” en 0. Malgré son caractère sommaire, cette variable dichotomique obtient le plus fort niveau de corrélation associé à une très forte significativité (r = +0.60, p < 0.001)
Discussion
A s’en tenir aux résultats de l’analyse bivariée, on pourrait supposer que seules deux des quatre variables explicatives jouent un rôle dans la prévision et l’explication du niveau des précipitations. ce qui nous conduirait à formuler un modèle PRE = f(LAT,ABR) dans lequel on aurait retiré les variables ALT et DIS en raison de leur absence de significativité lorsqu’elles sont introduites de façon isolée.
On devine cependant que ces différents facteurs ne sont pas indépendant les uns des autres et qu’ils doivent être prise en compte simultanément si l’on veut rendre compte correctement du phénomène étudié. Deux cas intéressant sur le plan théorique peuvent d’ailleurs se produire :
Une variable explicative dont l’effet est significatif lorsqu’elle est utilisée de façon isolée devient non-significative lorsqu’on la combine avec d’autres variables explicatives.
Une variable explicative dont l’effet est non-significatif lorsqu’elle est utilisée de façon isolée devient significative lorsqu’on la combine avec d’autres variables explicatives.
Ce n’est donc qu’en introduisant simultanément l’ensemble des variables dans un même modèle qu’on pourra véritablement évaluer leurs pouvoirs explicatifs respectifs.
D. Modélisation
Conformément aux objectifs de cette introduction, nous n’allons pas aborder immédiatement les aspects proprement statistiques de la régression linéaire. Nous allons plutôt suivre une démarche hypothético-déductive de construction progressive d’un modèle explicatif selon le schéma proposé par F. Durand-Dastès (1992) dans le texte intitulé “Le particulier et le général en géographie” et dont la logique est présentée ci-dessous.
La méthode hypothetico déductive (Durand-Dastès F., 1990)
Modèle 1 : Latitude + Altitude + Distance
Dans ce premier modèle nous introduisons les trois variables explicatives correspondant aux hypothèses H1, H2 et H3 que nous avons discuté dans la section précédente. Les résultats de la modélisation statsistique apparaissent sous la forme d’un tableau de prime abord complexe à comprendre pour le non spécialiste.
Dependent variable: | |
Précipitations (en mm) | |
Latitude (degrés N) | 87.893*** |
(20.175) | |
Altitude (m) | 0.339*** |
(0.101) | |
Distance à la mer (km) | -2.265*** |
(0.577) | |
Constant | -2,609.336*** |
(741.251) | |
Observations | 30 |
R2 | 0.600 |
Adjusted R2 | 0.554 |
Residual Std. Error | 281.769 (df = 26) |
F Statistic | 12.997*** (df = 3; 26) |
Note: | p<0.1; p<0.05; p<0.01 |
On peut traduire les résultats sous la forme de l’équation suivante qui donne les paramètres de prédiction \(PRE_i\) d’une station \(i\) en fonction de sa latitude \(LAT_i\), de son altitude \(ALT_i\) et de sa distance à la mer \(DIS_i\) avec une erreur égale à \(\epsilon_i\) :
\(PRE_i = -2609 + (87.9 \times LAT_i) + (0.101 \times ALT_i) - (2.27 \times DIS_i) + \epsilon_i\)
Par exemple, la station n°1 (Eureka) est située à latitude de 40.8 degrés avvec une altitude de 10 mètres et une distance à la mer de 2 kilomètres. Le modèle prévoit donc que ses précipitations devraient être approximativement égales à :
\(PRE_1 = -2609 + (87.9 \times 40.8) + (0.101 \times 10) - (2.27 \times 2) = 975.6\)
La valeur observée est légèrement plus forte que la prédiction (1010) ce quui donne une erreur résiduelle \(\epsilon_1\) égale à 1010-975.6 = +34.4. Comme dans un modèle de régression simple, on peut établir un tableau de résultat présentant les valeurs observées, les valeurs estimées et les résidus qui correspondent à la différence entre les deux.
Code | Nom | Valeur observée | Valeur estimée | résidu |
---|---|---|---|---|
1 | EUREKA | 1010 | 975.6 | 34.4 |
2 | RED-BLUFF | 590 | 606.8 | -16.8 |
3 | THERMAL | 460 | 538.7 | -78.7 |
4 | FORT-BRAGG | 950 | 855.9 | 94.1 |
5 | SODA-SPRING | 1250 | 1000.2 | 249.8 |
6 | SAN-FRANCISCO | 550 | 701.7 | -151.7 |
7 | SACRAMENTO | 460 | 488.0 | -28.0 |
8 | SAN-JOSE | 360 | 586.1 | -226.1 |
9 | GIANT-FOREST | 1080 | 740.3 | 339.7 |
10 | SALINAS | 350 | 580.1 | -230.1 |
11 | FRESNO | 240 | 238.0 | 2.0 |
12 | Pt-PIEDRAS | 490 | 530.7 | -40.7 |
13 | PASA-ROBLES | 400 | 493.2 | -93.2 |
14 | BAKERSFIELD | 150 | 281.2 | -131.2 |
15 | BISHOP | 150 | 375.1 | -225.1 |
16 | MINERAL | 1210 | 929.5 | 280.5 |
17 | SANTA-BARBARA | 460 | 423.2 | 36.8 |
18 | SUSANVILLE | 460 | 645.6 | -185.6 |
19 | TULE-LAKE | 250 | 983.3 | -733.3 |
20 | NEEDLES | 120 | -151.1 | 271.1 |
21 | BURBANK | 370 | 298.0 | 72.0 |
22 | LOS-ANGELES | 380 | 362.9 | 17.1 |
23 | LONG-BEACH | 310 | 325.2 | -15.2 |
24 | LOS-BANOS | 210 | 459.3 | -249.3 |
25 | BLYTHE | 100 | -190.8 | 290.8 |
26 | SAN-DIEGO | 250 | 250.0 | 0.0 |
27 | DAGGET | 110 | 296.9 | -186.9 |
28 | DEATH-VALLEY | 40 | -120.4 | 160.4 |
29 | CRESCENT-CITY | 1900 | 1054.7 | 845.3 |
30 | COLUSA | 410 | 512.1 | -102.1 |
En comparant la variance des résidus à la variance initiale de la variable dépendante, on peut calculer le pouvoir explicatif de notre modèle qui est le carré du coefficient de corrélation multiple noté en abrégé \(R^2\). Dans notre exemple ce pouvoir explicatif est environ de 60% ce qui signifie que près de 40% des différences de précipitations entre les stations demeurent à ce stade inexpliquée par les trois variables que nous avons introduites dans le modèle. Si certaines stations bénéficient de prédiction quasi pafaites comme Fresno (n°11) ou San Diego (n°26), d’autres affichent des erreurs considérables d’estimation. C’est notamment le cas des deux stations situées le plus au nord : Tule Lake (n°19) et Crescent City (n°29).
Une cartographie des résidus peut alors être entreprise afin de vérifier si les erreurs se distribuent au hasard dans l’espace où si elles se regroupent dans certaines situations particulières pouvant révéler l’existence d’une autre variable explicative que l’on n’aurait pas aperçue de prime abord.
On remarque sur la carte que les résidus positifs et négatifs ne se distribuent pas au hasard mais semblent liés aux différentes chaînes de montagnes qui traversent la Californie. On remarque plus précisément que les stations qui sont tournées vers l’ouest face à l’Océan ont en général des résidus positifs ce qui signifie que notre modèle a sous-estime leur quantité de pluie. Inversement, les stations tournées vers l’est et situées en position d’abri ont en général des résidus négtifs, ce qui signifie que notre modèle a surestimé leurs précipitations. Même si la règle comporte des exceptions (certaines stations en situation d’abri ont des résidus positifs), elle semble suffisamement générale pour justifier l’introduction d’une nouvelle variable dans le modèle.
Modèle 2 : Latitude + Altitude + Distance + Abri
La variable situation d’abri étant qualitative, elle est transformée en une variable quantitative binaire (dummy variable) où la modalité 1 correspond à la présence du phénomène d’abri et la modalité 0 à son absence. Le modèle va donc rajouter un paramètre supplémentaire dans l’équation pour indiqiuer de combien il faut accroître ou réduire les précipitations en cas de situation d’abri.
Dependent variable: | |
Précipitations (en mm) | |
Latitude (degrés N) | 87.883*** |
(16.682) | |
Altitude (m) | 0.183* |
(0.094) | |
Distance à la mer (km) | -0.852 |
(0.617) | |
Abri (Oui/Non) | -401.351*** |
(111.186) | |
Constant | -2,493.660*** |
(613.735) | |
Observations | 30 |
R2 | 0.737 |
Adjusted R2 | 0.695 |
Residual Std. Error | 232.978 (df = 25) |
F Statistic | 17.516*** (df = 4; 25) |
Note: | p<0.1; p<0.05; p<0.01 |
La nouvelle équation du modèle peut maintenant s’écrire :
\(PRE_i = -2493 + (87.9 \times LAT_i) + (0.183 \times ALT_i) - (0.85 \times DIS_i) - (401 \times ABR_i)+ \epsilon_i\)
Le paramètre de la variable \(ABR\) indique que les stations situées en position d’abri ont des précipitations plus faible d’environ 400 mm que les stations tournées vers l’ouest face aux vents dominants. L’ajout de ce paramètre augmente considérablement le pouvoir explicatif du modèle puisque son coefficient de détermination \(R^2\) passe de 60.0% dans le modèle 1 à 73.7% dans le modèle 2.
Mais l’ajout de cette nouvelle variable modifie aussi le rôle des trois variables précédentes. Si l’effet de la latitude ne change pas et demeure très significatif, il n’en va pas de même pour la variable altitude. Alors que le modèle 1 suggérait un accroissement des pluies de 0.33 mm de pluies chaque fois que l’altitude auglente d’un mètre, le modèle 2 indique un effet plus limité de 0.183 mm de pluie par mètre d’altitude. Cettevariable demeure significative mais moins que précédemment. Quand à la variable distance à la mer, elle apparaît désormais non significative et pourrait être retiré du modèle.
Ces modifications suggèrent que l’effet d’abri est corrélé avec les deux variables altitude et distance à la mer ce que confirme l’observation empirique. Leur pouvoir explicatif est donc diminué car il correspondait - au moins en partie - à l’effet d’une variable au pouvoir explicatif plus puissant.
Code | Nom | Valeur observée | Valeur estimée | résidu |
---|---|---|---|---|
1 | EUREKA | 1010 | 1092.1 | -82.1 |
2 | RED-BLUFF | 590 | 524.0 | 66.0 |
3 | THERMAL | 460 | 211.9 | 248.1 |
4 | FORT-BRAGG | 950 | 970.9 | -20.9 |
5 | SODA-SPRING | 1250 | 1131.8 | 118.2 |
6 | SAN-FRANCISCO | 550 | 825.1 | -275.1 |
7 | SACRAMENTO | 460 | 381.2 | 78.8 |
8 | SAN-JOSE | 360 | 358.9 | 1.1 |
9 | GIANT-FOREST | 1080 | 879.5 | 200.5 |
10 | SALINAS | 350 | 317.7 | 32.3 |
11 | FRESNO | 240 | 193.5 | 46.5 |
12 | Pt-PIEDRAS | 490 | 645.7 | -155.7 |
13 | PASA-ROBLES | 400 | 241.8 | 158.2 |
14 | BAKERSFIELD | 150 | 141.2 | 8.8 |
15 | BISHOP | 150 | 341.2 | -191.2 |
16 | MINERAL | 1210 | 1133.7 | 76.3 |
17 | SANTA-BARBARA | 460 | 535.1 | -75.1 |
18 | SUSANVILLE | 460 | 608.5 | -148.5 |
19 | TULE-LAKE | 250 | 821.0 | -571.0 |
20 | NEEDLES | 120 | -47.2 | 167.2 |
21 | BURBANK | 370 | 486.4 | -116.4 |
22 | LOS-ANGELES | 380 | 499.2 | -119.2 |
23 | LONG-BEACH | 310 | 464.2 | -154.2 |
24 | LOS-BANOS | 210 | 333.7 | -123.7 |
25 | BLYTHE | 100 | -138.9 | 238.9 |
26 | SAN-DIEGO | 250 | 375.1 | -125.1 |
27 | DAGGET | 110 | 102.8 | 7.2 |
28 | DEATH-VALLEY | 40 | 39.4 | 0.6 |
29 | CRESCENT-CITY | 1900 | 1171.2 | 728.8 |
30 | COLUSA | 410 | 429.2 | -19.2 |
L’examen du tableau et de la carte des résidus montre une amélioration générale des prédictions, même si dans certains cas une station peut voir son erreur augmenter lorsqu’on passe du modèle 1 au modèle 2. Il n’en demeure pas moins que les deux stations du nord de la Californie continuent à afficher des résidus exceptionnellement forts, l’un positif (Crescent City) et l’autre négatif (Tule Lake) ce qui laisse penser qu’elles relèvent d’un autre modèle climatique que celui des autres stations de Californie.
Ceci conduit à proposer un troisième modèle où l’on ne conserve que 28 stations en excluant les deux stations septentrionales.
Modèle 3 : idem mais sans les deux stations du nord.
Ce dernier modèle possède un pouvoir explicatif remarquable puisque son coefficient de détermination \(R^2\) est de 89% ce qui signifie qu’à peine 10% des variations de précipitations entre les stations demeurent inexpliquées. On note de plus que les quatre variables sont désormais toutes très significatives, ce qui n’était pas le cas dans le modèle 2 où les variables altitude et distance à la mer avaient vu leur significativité fortement réduite par rapport au modèle 1. On peut donc conclure que nous disposons désormais d’un modèle d’excellente qualité pour prévoir les précipitations en Californie (exception faite de sa partie la plus septentrionale).
Notre modèle permet de voir l’effet de chacune de nos quatre variables explicatives, non plus de façon isolée mais toutes choses égales quant à l’effet des trois autres :
- Latitude : les précipitations augmentent en moyenne de 78 mm chaque fois que l’on se déplace vers le nord d’un degré.
- Altitude : les précipitations augmentent en moyenne de 27.5 mm chaque fois que l’altitude augmente de 100 mètre.
- Distance à la mer : les précipitations diminuent 9 mm chaque fois que l’on s’éloigne de la côte Pacifique de 10 km .
- Situation d’abri : les précipitations sont en moyenne plus faible de 285 mm dans les stations situées à l’abri des vents d’ouest.
Sur la base de ces résultats on pourrait théoriquement produire des prévisions relativement fiable d’un point quelconque de Californie qui ne disposerait pas de station météorologique mais où l’on connaîtrait chacun des paramètres.
Dependent variable: | |
Précipitations (en mm) | |
Latitude (degrés N) | 77.836*** |
(10.155) | |
Altitude (m) | 0.275*** |
(0.052) | |
Distance à la mer (km) | -0.899** |
(0.330) | |
Abri (Oui/Non) | -284.514*** |
(60.871) | |
Constant | -2,229.328*** |
(369.080) | |
Observations | 28 |
R2 | 0.887 |
Adjusted R2 | 0.867 |
Residual Std. Error | 123.545 (df = 23) |
F Statistic | 44.959*** (df = 4; 23) |
Note: | p<0.1; p<0.05; p<0.01 |
Synthèse et discussion
On peut résumer les étapes de notre démarche hypothético-déductive à l’aide d’un tableau final qui regroupe les paramètres des trois modèles et permet de voir comment la qualité générale de l’ajustement augmente et comment les paramètres de chacune des variables explicatives évolue en fonction de la présence d’autres variables ou de l’exclusion de valeurs exceptionnelles. Nous procédons ce faisant à un test de stabilité des résultats qui permet de repérer les facteurs explicatifs dont l’effet est indiscutable (latitude, effet d’abri) et ceux dont la significativité est plus variable et dont les paramètres peuvent se modifier plus ou moins fortement (altitude, distance à la mer).
Dependent variable: | |||
Précipitations (en mm) | |||
(1) | (2) | (3) | |
Latitude (degrés N) | 87.893*** | 87.883*** | 77.836*** |
(20.175) | (16.682) | (10.155) | |
Altitude (m) | 0.339*** | 0.183* | 0.275*** |
(0.101) | (0.094) | (0.052) | |
Distance à la mer (km) | -2.265*** | -0.852 | -0.899** |
(0.577) | (0.617) | (0.330) | |
Abri (Oui/Non) | -401.351*** | -284.514*** | |
(111.186) | (60.871) | ||
Constant | -2,609.336*** | -2,493.660*** | -2,229.328*** |
(741.251) | (613.735) | (369.080) | |
Observations | 30 | 30 | 28 |
R2 | 0.600 | 0.737 | 0.887 |
Adjusted R2 | 0.554 | 0.695 | 0.867 |
Residual Std. Error | 281.769 (df = 26) | 232.978 (df = 25) | 123.545 (df = 23) |
F Statistic | 12.997*** (df = 3; 26) | 17.516*** (df = 4; 25) | 44.959*** (df = 4; 23) |
Note: | p<0.1; p<0.05; p<0.01 |
Concernant la stratégie adoptée dans le modèle 3 (retrait de deux valeurs exceptionnelles) il est important de préciser qu’elle fait l’objet de vives controverses entre les spécialistes de modélisation. Certains auteurs considèrent comme sacrilège de retirer la moindre valeur du tableau initial, estimant qu’il s’agit d’une forme de “tricherie” scientifique. D’autres auteurs y voient au contraire une nécessité dès lors que les valeurs exceptionnelles perturbent l’ensemble des résultats et mettent en péril les conclusions qu’on pourrait tirer. Laissons sur ce point la parole à l’auteur de l’étude sur les précipitations en Californie :
“We argue that our variables behave differently in the extreme north and so we cannot expect to model that region within the same analysis as the rest of the state. Hence we will omit these two stations and proceed with a third model incorporating just 28 stations. Such a strategy is certainly controversial, for a researcher should not pick and choose what observations include in this way other than in exceptional circumstances. The residuals for stations and 29 are exceptional. (A useful next stage would be to collect data for Washington and Oregon and see whether these two stations fit consistently into a new “north-west region” multiple regression equation.” (P.J. Taylor, 1980)