Introduction : Les précipitations en Californie

Author

Claude Grasland & Nadege Gbetoton Djossou

Objectif

L’objectif de ce chapitre introductif est de présenter de façon non technique les objectifs du module en s’appuyant sur un célèbre exemple pédagogique mis au point par le géographe P.J. Taylor en 1980. Bien qu’il ne concerne pas directement les pays africains ou la France, cet exemple a été retenu pour l’EE CIST 2023 car l’expérience montre qu’il est particulièrement efficace pour l’apprentissage des mécanismes logiques de construction d’un modèle de régression multiple. La publication originale étant difficile à trouver, nous avons créé un lien sur le site de l’EE pour son téléchargement mais nous en rappelons ici la référence complète :

P. J. Taylor, 1980, A Pedagogic Application of Multiple Regression Analysis: Precipitation in California, Geography ,Vol. 65, No. 3, pp. 203-212 Published by: Geographical Association, https://www.jstor.org/stable/40569273

Toute en reprenant l’essentiel de la démonstration de l’auteur, nous allons toutefois adapter sa démarche sur plusieurs points :

traduction en français (!)
développement plus important de la partie univariée
reprise de la cartographie initiale de l’article
réalisation de tous les calculs avec R

A. Introduction

Objectifs de la régression multiple

La régression multiple est une méthode permettant de décrire comment les variations d’une phénomène sont reliés aux variations d’un ou plusieur autres phénomènes. On suppose en général que le premier phénomène est la variable à expliquer (qui sera notée \(Y\)) et que les autres phénomènes sont des variables explicatives (qui seront notées \(X_1...X_n\)). On suppose donc que les variations de ces variables explicatives “produisent”, “déterminent” ou même “causent” les variations de la variable à expliquer.

Corrélation et causalité

Dans l’exemple qui va suivre, les relations de causalité sont assez faciles à démontrer car elles reposent sur des phénomènes physiques bien établis tels que le refroidissement de la température avec l’altitude ou la direction générale de la circulation des masses d’air d’ouest en est dans les zones de moyenne latitude. Mais il faut d’emblée souligner que dans les exemples qui seront analysés par la suite de ce chapitre on sera confronté à des situations moins simples et pour lesquelles il n’est pas toujours évident d’identifier de façon absolue le sens de la relation de causalité entre la variable \(Y\) et les autres variables \(X_1...X_n\). Dans certains cas, on est plutôt en situation de covariation ce qui signifie que l’onpeut prédire la valeur d’un indicateur en fonction d’un autre sans pour autant pouvoir affirmer avec certitude lequel est la cause et l’autre la conséquence.

Une approche non technique

Le but de ce chapitre d’introduction est de présenter le principe de la régression multiple de façon volontairement non technique afin de permettre aux étudiants de comprendre les rudiments de la méthode sans être immédiatement forcés d’en saisir les détails dans toute leur sophistication. Dit autrement , il s’agit de leur donner envie d’apprendre la technique en leur faisant saisir de façon intuitive tout son intérêt et toute sa puissance.

Un problème exemplaire

Bien que l’exemple retenu par P.J. Taylor n’ait pas d’ambition scientifique (il concerne des faits bien connus des géographes et des climatologues), il est suffisamment exemplaire pour apparaître d’emblée intéressant à l’ensemble des géographes et - nous l’espérons - des chercheurs d’autres disciplines. Les prédictions météorologiques sont en effet un souci quotidien dans l’ensemble des pays du monde et les précipitations ont une importance de plus en plus vitale dans une période d’accélération du changement climatique.

Il serait d’ailleurs intéressant de voir si on peut au cours de l’EE CIST 2023 actualiser les données de Taylor à près d’un demi-siècle de distance. Il fait en effet peu de doute que les préciptations en Californie ont certainement beaucoup changé depuis les années 1970…

B. Données

Dans cette section, nous présentons les variables contenues dans le tableau de données, la localisatiion géographique des stations et enfin les hypothèses concernant les relations de causalité ou de covariations.

Le tableau de données

Le tableau original de Taylor (1980) a été légèrement modifié afin de le rendre plus familier pour des lecteurs francophones. Il s’agit uniquement de transformation des unités de mesure afin que les précipitations soient désormais en millimètres (et non pas en pouces), les altitudes en mètres (et non pas en pieds), les distances à la mer en (kilomètres) et non pas en miles. Ces transformations ne modifient normalement pas les résultats mais facilitent la transmission pour un public moins familier des mesures anglo-saxonnes.

Les précipitations en Californie vers 1960
CODE	NOM	PRE	ALT	DIS	ABR	LAT	LNG
1	EUREKA	1010	10	2	NON	40.8	-124.2
2	RED-BLUFF	590	100	155	OUI	40.2	-122.2
3	THERMAL	460	1270	112	OUI	33.8	-116.2
4	FORT-BRAGG	950	20	2	NON	39.4	-123.8
5	SODA-SPRING	1250	2060	240	NON	39.3	-120.4
6	SAN-FRANCISCO	550	20	8	NON	37.8	-122.5
7	SACRAMENTO	460	10	128	OUI	38.5	-121.5
8	SAN-JOSE	360	30	45	OUI	37.4	-121.9
9	GIANT-FOREST	1080	1940	232	NON	36.6	-118.7
10	SALINAS	350	20	19	OUI	36.7	-121.6
11	FRESNO	240	100	182	OUI	36.7	-119.8
12	Pt-PIEDRAS	490	20	2	NON	35.7	-121.3
13	PASA-ROBLES	400	230	50	OUI	35.7	-120.7
14	BAKERSFIELD	150	150	120	OUI	35.4	-119.0
15	BISHOP	150	1250	317	OUI	37.3	-118.4
16	MINERAL	1210	1480	227	NON	40.4	-121.6
17	SANTA-BARBARA	460	40	2	NON	34.4	-119.7
18	SUSANVILLE	460	1270	317	OUI	40.3	-120.6
19	TULE-LAKE	250	1230	224	OUI	41.9	-121.5
20	NEEDLES	120	280	307	OUI	34.8	-114.6
21	BURBANK	370	210	75	NON	34.2	-118.3
22	LOS-ANGELES	380	100	26	NON	34.1	-118.3
23	LONG-BEACH	310	20	19	NON	33.8	-118.2
24	LOS-BANOS	210	40	118	OUI	37.8	-118.1
25	BLYTHE	100	80	248	OUI	33.6	-114.6
26	SAN-DIEGO	250	10	8	NON	32.7	-117.2
27	DAGGET	110	640	136	OUI	34.1	-116.9
28	DEATH-VALLEY	40	-50	310	OUI	36.5	-116.4
29	CRESCENT-CITY	1900	10	2	NON	41.7	-124.2
30	COLUSA	410	20	146	OUI	39.2	-122.0

CODE : Code de la station
NOM : Nom de la station
PRE : Précipitations annuelles (en millimètres)
ALT : Altitude (en mètres)
DIS : Distance à la mer (en kilomètres)
ABR : Situation d’abri par rapport aux vents dominants
LAT : Latitude (en degrés décimaux de latitude nord)
LNG : Longitude (en dégrés décimaux)

Localisation

Les différentes stations météorologiques peuvent être localisées sur une carte interactive si on dispose d’une connexion internet et si le document est enregistré au format .html. Il suffit alors de cliquer sur une station pour retrouver l’ensemble des informations du tableau. On aplacé en fonds d’écran un fonds de carte indiquant le relief ce qui permet de mieux comprendre la signification de la variable ABR qui indique si la station est face au vent d’ouest (ABR = “Non”) ou si elle se trouve sur un versant qui tourne le dos à la mer et reçois alors moins de précipitations (ABR = “Oui”).

Dans le cas où l’on ne dispose pas de connexion internet, on se contentera d’une carte statique indiquant juste la position des stations avec leur code.

Carte des précipitations

La carte des précipitations ne montrent pas de schéma spatial d’organisation très évident de prime abord. La station n° 29 qui affiche les précipitations maximales (Crescent City, 1900 mm) se situe sur la côte au nord-ouest tandis que la station n°28 qui affiche les précipitations les plus faibles se situe à l’intérieur au sud-est (Death Valley, 40 mm). Entre ces deux extrêmes, on trouve de fortes différences entre stations parfois très proches dans l’espace. Ainsi, la station n°9 (Giant Forest) reçoit 1080 mm de pluie par an alors que la station n°11 (Fresno) qui est située à moins de 100 km ne reçoit que 240 mm par an.

C. Hypothèses bivariées

Dans le cadre de l’exemple des précipitations en Californie, on peut émettre un certain nombre d’hypothèses causales sur les déterminants des précipitations qui obéissent aux règles du cycle de l’eau dans les régions de moyenne latitude soumises à une circulation dominante des masses d’airs d’ouest en est. L’exemple serait évidemment différent si l’on analysait les précipitations dans des régions de hautes ou basses latitudes.

Le cycle de l’eau dans les régions de moyenne latitude

H1 : Les précipitations augmentent avec l’altitude**

Le phénomène s’explique par la diminution de la température de -0.6°C tous les 100 mètres. Une masse d’air chargée d’une certaine quantité d’humidité va se transformer en pluie lorsque la température sera descendue en dessous d’un certain seuil. Cette hypothèse est-elle vérifiée sur le plan statistique

On décèle en effet une légère tendance à l’accroissement des précipitations avec l’altitude, mais la relation observée n’est pas très forte et comporte de nombreuses exceptions. Au total, on ne peut mettre en évidence un effet significatif.

H2 : Les précipitations augmentent avec la latitude

Dans le cas de la Californie qui est très étirée dans le sens Nord-Sud, les précipitations seront en moyenne plus importante au Nord qu’au Sud car les dépressions d’Ouest y circulent plus fréquemment. Cette hypothèse est-elle vérifiée sur le plan statistique ?

Nous obtenons une relation beaucoup plus forte que précédemment qui est nettement significative (r = 0.58, p <0.001). Il demeure certes des résidus important et l’on peut être par exemple intrigué par le cas des stations n°19 (Tule Lake) et n°29 (Crescent City) qui affichent des différences considérables de précipitations alors qu’elles sont situées pratiquement à la même latitude.

H3 : les précipitations diminuent avec le distance à la mer

Les masses d’airs circulant d’Ouest en Est vont perdre progressivement leur charge en humidité sur les premiers reliefs qu’elles vont rencontrer. Les chaînes de montagne éloignées de la côte recevront moins de précipitations à altitude égale.

La relation est bien négative comme nous l’avions prévu mais elle demeure nettement trop faible pour être significative (r = -0.21, p = 0.27). En dehors de l’exception remarquable constituée par la station n°29 (Crescent City), on remarque le groupe des stations n°5 (Soda Springs), 9 (Giant Forest) et 16 (Mineral) qui sont toutes caractérisées par un fort niveau de précipitation alors même qu’elles sont éloignées de plus de 200 km de la mer. Un retour au tableau montre que toutes ces stations ont pour point commun d’être localisée à une altitude supérieure à 1000 mètres. On peut alors commencer à deviner que si l’altitude et la distancd à la mer ne so,nt pas significatives de façon isolée, elles vont peut-être le devenir si on les combine ensemble.

H4 : Les stations en situation d’abri reçoivent moins de précipitation

En effet les nuages tendent à déverser leur pluie sur le premier versant tournée vers la mer et arrosent moins les versants qui lui tournent le dos ou les dépressions.

Cette dernière hypothèse est un peu différente des précédentes puisqu’elle met en jeu une variable qualitative de type binaire, mais on peut comparer ses résultats avec les précédents en utilisant une astuce statistique consistant à transformer les modalités “OUI” en 1 et les modalités “NON” en 0. Malgré son caractère sommaire, cette variable dichotomique obtient le plus fort niveau de corrélation associé à une très forte significativité (r = +0.60, p < 0.001)

Discussion

A s’en tenir aux résultats de l’analyse bivariée, on pourrait supposer que seules deux des quatre variables explicatives jouent un rôle dans la prévision et l’explication du niveau des précipitations. ce qui nous conduirait à formuler un modèle PRE = f(LAT,ABR) dans lequel on aurait retiré les variables ALT et DIS en raison de leur absence de significativité lorsqu’elles sont introduites de façon isolée.

On devine cependant que ces différents facteurs ne sont pas indépendant les uns des autres et qu’ils doivent être prise en compte simultanément si l’on veut rendre compte correctement du phénomène étudié. Deux cas intéressant sur le plan théorique peuvent d’ailleurs se produire :

Une variable explicative dont l’effet est significatif lorsqu’elle est utilisée de façon isolée devient non-significative lorsqu’on la combine avec d’autres variables explicatives.
Une variable explicative dont l’effet est non-significatif lorsqu’elle est utilisée de façon isolée devient significative lorsqu’on la combine avec d’autres variables explicatives.

Ce n’est donc qu’en introduisant simultanément l’ensemble des variables dans un même modèle qu’on pourra véritablement évaluer leurs pouvoirs explicatifs respectifs.

D. Modélisation

Conformément aux objectifs de cette introduction, nous n’allons pas aborder immédiatement les aspects proprement statistiques de la régression linéaire. Nous allons plutôt suivre une démarche hypothético-déductive de construction progressive d’un modèle explicatif selon le schéma proposé par F. Durand-Dastès (1992) dans le texte intitulé “Le particulier et le général en géographie” et dont la logique est présentée ci-dessous.

La méthode hypothetico déductive (Durand-Dastès F., 1990)

Modèle 1 : Latitude + Altitude + Distance

Dans ce premier modèle nous introduisons les trois variables explicatives correspondant aux hypothèses H1, H2 et H3 que nous avons discuté dans la section précédente. Les résultats de la modélisation statsistique apparaissent sous la forme d’un tableau de prime abord complexe à comprendre pour le non spécialiste.

**Paramètres du modèle 1**

	Dependent variable:

	Précipitations (en mm)

Latitude (degrés N)	87.893^***
	(20.175)

Altitude (m)	0.339^***
	(0.101)

Distance à la mer (km)	-2.265^***
	(0.577)

Constant	-2,609.336^***
	(741.251)


Observations	30
R²	0.600
Adjusted R²	0.554
Residual Std. Error	281.769 (df = 26)
F Statistic	12.997^*** (df = 3; 26)

Note:	p<0.1; p<0.05; p<0.01

On peut traduire les résultats sous la forme de l’équation suivante qui donne les paramètres de prédiction \(PRE_i\) d’une station \(i\) en fonction de sa latitude \(LAT_i\), de son altitude \(ALT_i\) et de sa distance à la mer \(DIS_i\) avec une erreur égale à \(\epsilon_i\) :

\(PRE_i = -2609 + (87.9 \times LAT_i) + (0.101 \times ALT_i) - (2.27 \times DIS_i) + \epsilon_i\)

Par exemple, la station n°1 (Eureka) est située à latitude de 40.8 degrés avvec une altitude de 10 mètres et une distance à la mer de 2 kilomètres. Le modèle prévoit donc que ses précipitations devraient être approximativement égales à :

\(PRE_1 = -2609 + (87.9 \times 40.8) + (0.101 \times 10) - (2.27 \times 2) = 975.6\)

La valeur observée est légèrement plus forte que la prédiction (1010) ce quui donne une erreur résiduelle \(\epsilon_1\) égale à 1010-975.6 = +34.4. Comme dans un modèle de régression simple, on peut établir un tableau de résultat présentant les valeurs observées, les valeurs estimées et les résidus qui correspondent à la différence entre les deux.

Valeurs estimées et résiduelles du modèle 1
Code	Nom	Valeur observée	Valeur estimée	résidu
1	EUREKA	1010	975.6	34.4
2	RED-BLUFF	590	606.8	-16.8
3	THERMAL	460	538.7	-78.7
4	FORT-BRAGG	950	855.9	94.1
5	SODA-SPRING	1250	1000.2	249.8
6	SAN-FRANCISCO	550	701.7	-151.7
7	SACRAMENTO	460	488.0	-28.0
8	SAN-JOSE	360	586.1	-226.1
9	GIANT-FOREST	1080	740.3	339.7
10	SALINAS	350	580.1	-230.1
11	FRESNO	240	238.0	2.0
12	Pt-PIEDRAS	490	530.7	-40.7
13	PASA-ROBLES	400	493.2	-93.2
14	BAKERSFIELD	150	281.2	-131.2
15	BISHOP	150	375.1	-225.1
16	MINERAL	1210	929.5	280.5
17	SANTA-BARBARA	460	423.2	36.8
18	SUSANVILLE	460	645.6	-185.6
19	TULE-LAKE	250	983.3	-733.3
20	NEEDLES	120	-151.1	271.1
21	BURBANK	370	298.0	72.0
22	LOS-ANGELES	380	362.9	17.1
23	LONG-BEACH	310	325.2	-15.2
24	LOS-BANOS	210	459.3	-249.3
25	BLYTHE	100	-190.8	290.8
26	SAN-DIEGO	250	250.0	0.0
27	DAGGET	110	296.9	-186.9
28	DEATH-VALLEY	40	-120.4	160.4
29	CRESCENT-CITY	1900	1054.7	845.3
30	COLUSA	410	512.1	-102.1

En comparant la variance des résidus à la variance initiale de la variable dépendante, on peut calculer le pouvoir explicatif de notre modèle qui est le carré du coefficient de corrélation multiple noté en abrégé \(R^2\). Dans notre exemple ce pouvoir explicatif est environ de 60% ce qui signifie que près de 40% des différences de précipitations entre les stations demeurent à ce stade inexpliquée par les trois variables que nous avons introduites dans le modèle. Si certaines stations bénéficient de prédiction quasi pafaites comme Fresno (n°11) ou San Diego (n°26), d’autres affichent des erreurs considérables d’estimation. C’est notamment le cas des deux stations situées le plus au nord : Tule Lake (n°19) et Crescent City (n°29).

Une cartographie des résidus peut alors être entreprise afin de vérifier si les erreurs se distribuent au hasard dans l’espace où si elles se regroupent dans certaines situations particulières pouvant révéler l’existence d’une autre variable explicative que l’on n’aurait pas aperçue de prime abord.

On remarque sur la carte que les résidus positifs et négatifs ne se distribuent pas au hasard mais semblent liés aux différentes chaînes de montagnes qui traversent la Californie. On remarque plus précisément que les stations qui sont tournées vers l’ouest face à l’Océan ont en général des résidus positifs ce qui signifie que notre modèle a sous-estime leur quantité de pluie. Inversement, les stations tournées vers l’est et situées en position d’abri ont en général des résidus négtifs, ce qui signifie que notre modèle a surestimé leurs précipitations. Même si la règle comporte des exceptions (certaines stations en situation d’abri ont des résidus positifs), elle semble suffisamement générale pour justifier l’introduction d’une nouvelle variable dans le modèle.

Modèle 2 : Latitude + Altitude + Distance + Abri

La variable situation d’abri étant qualitative, elle est transformée en une variable quantitative binaire (dummy variable) où la modalité 1 correspond à la présence du phénomène d’abri et la modalité 0 à son absence. Le modèle va donc rajouter un paramètre supplémentaire dans l’équation pour indiqiuer de combien il faut accroître ou réduire les précipitations en cas de situation d’abri.

**Paramètres du modèle 2**

	Dependent variable:

	Précipitations (en mm)

Latitude (degrés N)	87.883^***
	(16.682)

Altitude (m)	0.183^*
	(0.094)

Distance à la mer (km)	-0.852
	(0.617)

Abri (Oui/Non)	-401.351^***
	(111.186)

Constant	-2,493.660^***
	(613.735)


Observations	30
R²	0.737
Adjusted R²	0.695
Residual Std. Error	232.978 (df = 25)
F Statistic	17.516^*** (df = 4; 25)

Note:	p<0.1; p<0.05; p<0.01

La nouvelle équation du modèle peut maintenant s’écrire :

\(PRE_i = -2493 + (87.9 \times LAT_i) + (0.183 \times ALT_i) - (0.85 \times DIS_i) - (401 \times ABR_i)+ \epsilon_i\)

Le paramètre de la variable \(ABR\) indique que les stations situées en position d’abri ont des précipitations plus faible d’environ 400 mm que les stations tournées vers l’ouest face aux vents dominants. L’ajout de ce paramètre augmente considérablement le pouvoir explicatif du modèle puisque son coefficient de détermination \(R^2\) passe de 60.0% dans le modèle 1 à 73.7% dans le modèle 2.

Mais l’ajout de cette nouvelle variable modifie aussi le rôle des trois variables précédentes. Si l’effet de la latitude ne change pas et demeure très significatif, il n’en va pas de même pour la variable altitude. Alors que le modèle 1 suggérait un accroissement des pluies de 0.33 mm de pluies chaque fois que l’altitude auglente d’un mètre, le modèle 2 indique un effet plus limité de 0.183 mm de pluie par mètre d’altitude. Cettevariable demeure significative mais moins que précédemment. Quand à la variable distance à la mer, elle apparaît désormais non significative et pourrait être retiré du modèle.

Ces modifications suggèrent que l’effet d’abri est corrélé avec les deux variables altitude et distance à la mer ce que confirme l’observation empirique. Leur pouvoir explicatif est donc diminué car il correspondait - au moins en partie - à l’effet d’une variable au pouvoir explicatif plus puissant.

Valeurs estimées et résiduelles du modèle 2
Code	Nom	Valeur observée	Valeur estimée	résidu
1	EUREKA	1010	1092.1	-82.1
2	RED-BLUFF	590	524.0	66.0
3	THERMAL	460	211.9	248.1
4	FORT-BRAGG	950	970.9	-20.9
5	SODA-SPRING	1250	1131.8	118.2
6	SAN-FRANCISCO	550	825.1	-275.1
7	SACRAMENTO	460	381.2	78.8
8	SAN-JOSE	360	358.9	1.1
9	GIANT-FOREST	1080	879.5	200.5
10	SALINAS	350	317.7	32.3
11	FRESNO	240	193.5	46.5
12	Pt-PIEDRAS	490	645.7	-155.7
13	PASA-ROBLES	400	241.8	158.2
14	BAKERSFIELD	150	141.2	8.8
15	BISHOP	150	341.2	-191.2
16	MINERAL	1210	1133.7	76.3
17	SANTA-BARBARA	460	535.1	-75.1
18	SUSANVILLE	460	608.5	-148.5
19	TULE-LAKE	250	821.0	-571.0
20	NEEDLES	120	-47.2	167.2
21	BURBANK	370	486.4	-116.4
22	LOS-ANGELES	380	499.2	-119.2
23	LONG-BEACH	310	464.2	-154.2
24	LOS-BANOS	210	333.7	-123.7
25	BLYTHE	100	-138.9	238.9
26	SAN-DIEGO	250	375.1	-125.1
27	DAGGET	110	102.8	7.2
28	DEATH-VALLEY	40	39.4	0.6
29	CRESCENT-CITY	1900	1171.2	728.8
30	COLUSA	410	429.2	-19.2

L’examen du tableau et de la carte des résidus montre une amélioration générale des prédictions, même si dans certains cas une station peut voir son erreur augmenter lorsqu’on passe du modèle 1 au modèle 2. Il n’en demeure pas moins que les deux stations du nord de la Californie continuent à afficher des résidus exceptionnellement forts, l’un positif (Crescent City) et l’autre négatif (Tule Lake) ce qui laisse penser qu’elles relèvent d’un autre modèle climatique que celui des autres stations de Californie.

Ceci conduit à proposer un troisième modèle où l’on ne conserve que 28 stations en excluant les deux stations septentrionales.

Modèle 3 : idem mais sans les deux stations du nord.

Ce dernier modèle possède un pouvoir explicatif remarquable puisque son coefficient de détermination \(R^2\) est de 89% ce qui signifie qu’à peine 10% des variations de précipitations entre les stations demeurent inexpliquées. On note de plus que les quatre variables sont désormais toutes très significatives, ce qui n’était pas le cas dans le modèle 2 où les variables altitude et distance à la mer avaient vu leur significativité fortement réduite par rapport au modèle 1. On peut donc conclure que nous disposons désormais d’un modèle d’excellente qualité pour prévoir les précipitations en Californie (exception faite de sa partie la plus septentrionale).

Notre modèle permet de voir l’effet de chacune de nos quatre variables explicatives, non plus de façon isolée mais toutes choses égales quant à l’effet des trois autres :

Latitude : les précipitations augmentent en moyenne de 78 mm chaque fois que l’on se déplace vers le nord d’un degré.
Altitude : les précipitations augmentent en moyenne de 27.5 mm chaque fois que l’altitude augmente de 100 mètre.
Distance à la mer : les précipitations diminuent 9 mm chaque fois que l’on s’éloigne de la côte Pacifique de 10 km .
Situation d’abri : les précipitations sont en moyenne plus faible de 285 mm dans les stations situées à l’abri des vents d’ouest.

Sur la base de ces résultats on pourrait théoriquement produire des prévisions relativement fiable d’un point quelconque de Californie qui ne disposerait pas de station météorologique mais où l’on connaîtrait chacun des paramètres.

**Paramètres du modèle 3**

	Dependent variable:

	Précipitations (en mm)

Latitude (degrés N)	77.836^***
	(10.155)

Altitude (m)	0.275^***
	(0.052)

Distance à la mer (km)	-0.899^**
	(0.330)

Abri (Oui/Non)	-284.514^***
	(60.871)

Constant	-2,229.328^***
	(369.080)


Observations	28
R²	0.887
Adjusted R²	0.867
Residual Std. Error	123.545 (df = 23)
F Statistic	44.959^*** (df = 4; 23)

Note:	p<0.1; p<0.05; p<0.01

Synthèse et discussion

On peut résumer les étapes de notre démarche hypothético-déductive à l’aide d’un tableau final qui regroupe les paramètres des trois modèles et permet de voir comment la qualité générale de l’ajustement augmente et comment les paramètres de chacune des variables explicatives évolue en fonction de la présence d’autres variables ou de l’exclusion de valeurs exceptionnelles. Nous procédons ce faisant à un test de stabilité des résultats qui permet de repérer les facteurs explicatifs dont l’effet est indiscutable (latitude, effet d’abri) et ceux dont la significativité est plus variable et dont les paramètres peuvent se modifier plus ou moins fortement (altitude, distance à la mer).

**Synthèse des modèles**

	Dependent variable:

	Précipitations (en mm)
	(1)	(2)	(3)

Latitude (degrés N)	87.893^***	87.883^***	77.836^***
	(20.175)	(16.682)	(10.155)

Altitude (m)	0.339^***	0.183^*	0.275^***
	(0.101)	(0.094)	(0.052)

Distance à la mer (km)	-2.265^***	-0.852	-0.899^**
	(0.577)	(0.617)	(0.330)

Abri (Oui/Non)		-401.351^***	-284.514^***
		(111.186)	(60.871)

Constant	-2,609.336^***	-2,493.660^***	-2,229.328^***
	(741.251)	(613.735)	(369.080)


Observations	30	30	28
R²	0.600	0.737	0.887
Adjusted R²	0.554	0.695	0.867
Residual Std. Error	281.769 (df = 26)	232.978 (df = 25)	123.545 (df = 23)
F Statistic	12.997^*** (df = 3; 26)	17.516^*** (df = 4; 25)	44.959^*** (df = 4; 23)

Note:	p<0.1; p<0.05; p<0.01

Concernant la stratégie adoptée dans le modèle 3 (retrait de deux valeurs exceptionnelles) il est important de préciser qu’elle fait l’objet de vives controverses entre les spécialistes de modélisation. Certains auteurs considèrent comme sacrilège de retirer la moindre valeur du tableau initial, estimant qu’il s’agit d’une forme de “tricherie” scientifique. D’autres auteurs y voient au contraire une nécessité dès lors que les valeurs exceptionnelles perturbent l’ensemble des résultats et mettent en péril les conclusions qu’on pourrait tirer. Laissons sur ce point la parole à l’auteur de l’étude sur les précipitations en Californie :

“We argue that our variables behave differently in the extreme north and so we cannot expect to model that region within the same analysis as the rest of the state. Hence we will omit these two stations and proceed with a third model incorporating just 28 stations. Such a strategy is certainly controversial, for a researcher should not pick and choose what observations include in this way other than in exceptional circumstances. The residuals for stations and 29 are exceptional. (A useful next stage would be to collect data for Washington and Oregon and see whether these two stations fit consistently into a new “north-west region” multiple regression equation.” (P.J. Taylor, 1980)