Le modèle linéaire
Modèles démographiques - Chapitre 2
1. Introduction : Notion de modèle
Considérons un phénomène naturel, par exemple la croissance d’une population. On peut représenter l’évolution de cette population au cours du temps par un graphique dans lequel les données connues sont représentées.
Prenons par exemple l’évolution de la population de la ville de Paris entre 1968 et 2020. Les données connues sont consignées dans le tableau ci-dessous (source : Wikipédia (2023)).
Année | Population |
---|---|
1968 | 2 590 771 |
1975 | 2 299 830 |
1982 | 2 176 243 |
1990 | 2 152 423 |
1999 | 2 125 246 |
2008 | 2 211 297 |
2013 | 2 229 621 |
2019 | 2 165 423 |
2020 | 2 145 906 |
On peut représenter ces données par un graphique en nuage de points (Figure 1).
Modéliser cette évolution, c’est chercher à représenter cette évolution par une fonction mathématique. Une telle fonction, si elle existe, permettra de prédire l’évolution de la population de Paris à une date ultérieure.
On peut représenter cette fonction par un graphique en courbe (Figure 2).
Comme on peut le voir (Figure 2), un modèle n’est jamais parfait. Il y a souvent une différence entre les valeurs observées et les valeurs prédites par le modèle. Quand ces erreurs sont trop importantes, on recherche un meilleur modèle.
On dit qu’un modèle est discret lorsque la fonction mathématique qui le définit est définie par une suite de valeurs numériques, représentée par un nuage de points.
On dit qu’un modèle est continu lorsque la fonction mathématique qui le définit est définie par une fonction mathématique continue, représentée par une courbe.
2. Modèle linéaire discret : suites arithmétiques
Considérons l’évolution de la population française entre 1982 et 2002 (Figure 3, source : Insee (2020)).
Nous pouvons observer que les points du nuage sont presque alignés. Un modèle linéaire est donc envisageable pour représenter cette évolution.
Observons la table des valeurs ainsi que les variations absolues entre deux paliers consécutifs :
Année | Population | Variation absolue |
---|---|---|
1982 | 55 572 624 | X |
1984 | 56 166 175 | X |
1985 | 56 444 748 | 283 273 |
1986 | 56 719 935 | 275 187 |
1987 | 57 012 268 | 292 333 |
1988 | 57 325 053 | 312 785 |
1989 | 57 659 542 | 334 485 |
1990 | 57 996 401 | 336 859 |
1991 | 58 280 135 | 283 734 |
1992 | 58 571 237 | 291 102 |
1993 | 58 852 002 | 280 765 |
1994 | 59 070 077 | 218 075 |
1995 | 59 280 577 | 210 500 |
1996 | 59 487 413 | 206 836 |
1997 | 59 691 177 | 203 764 |
1998 | 59 899 347 | 208 170 |
1999 | 60 122 665 | 223 318 |
2000 | 60 508 150 | 485 485 |
2001 | 60 941 410 | 433 260 |
2002 | 61 385 070 | 443 660 |
On constate que la variation absolue est presque constante : il y a des différences, mais l’ordre de grandeur reste le même. En moyenne, la variation absolue est de 300 000 personnes environ.
Un modèle mathématique discret pour cette évolution peut alors être défini par une suite arithmétique \((u(n))\) en posant :
- \(u(0)=55~572~624\) : population en 1982.
- Pour tout entier naturel \(n\), on note \(u(n)\) la population l’année \(1982 + n\). On a alors la relation :
\[u(n+1)=u(n)+300~000\]
Une telle suite étant définie, il est possible de calculer directement la valeur de \(u(n)\) pour tout entier naturel \(n\) :
Application : le modèle peut être utilisé pour prédire la population en 2005. En 2005, la valeur de \(n\) est de \(1982-2005=23\). On calcule donc \(u(23)=55~572~624+23\times 300~000=62~472~624\). Selon ce modèle, la population française en 2005 est de 62 472 624 habitants.
En réalité, nous savons (d’après Insee (2020)) que la population française en 2005 était de 62 730 537 habitants, ce qui représente une différence de 257 913 habitants par rapport au modèle, soit environ 0,4%.
3. Modèle linéaire continu : fonctions affines
Rechercher un modèle linéaire continu, c’est rechercher une fonction affine qui permet de représenter la variation de la population française entre 1982 et 2002, c’est-à-dire une fonction de la forme \(f(x)=ax+b\) dont la droite représentative est la plus proche possible des points du nuage.
À partir d’un nuage de points, d’un tableau de valeurs, on peut, à l’aide de la calculatrice ou d’un logiciel, déterminer une fonction affine dont la courbe représentative est une droite qui représente de façon optimale, dans un certain sens, le nuage de points. Une telle droite est appelée droite de régression.
À l’aide d’un tableur par exemple, nous obtenons l’équations suivante pour la droite de régression du nuage de points représentant l’évolution de la population française entre 1982 et 2002, au sens des moindres carrés :
\[f(x)=275~695x-490~759~659\]
Application : le modèle peut être utilisé pour prédire la population en 2005. On calcule \(f(2005)=275~695\times 2005-490~759~659=62 008 816\). Selon ce modèle, la population française en 2005 est de 62 008 816 habitants.
En réalité, nous savons (d’après Insee (2020)) que la population française en 2005 était de 62 730 537 habitants, ce qui représente une différence de 721 721 habitants par rapport au modèle, soit environ 1%.