Écart type
dispersion des valeurs d'une variable aléatoire autour de sa valeur attendue / De Wikipedia, l'encyclopédie encyclopedia
Cher Wikiwand IA, Faisons court en répondant simplement à ces questions clés :
Pouvez-vous énumérer les principaux faits et statistiques sur Écart type?
Résumez cet article pour un enfant de 10 ans
Vous lisez un « bon article » labellisé en 2012.
En mathématiques, l’écart type (aussi orthographié écart-type) est une mesure de la dispersion des valeurs d'un échantillon statistique ou d'une distribution de probabilité. Il est défini comme la racine carrée de la variance ou, de manière équivalente, comme la moyenne quadratique des écarts par rapport à la moyenne. Il se note en général avec la lettre grecque σ (« sigma »), d’après l’appellation standard deviation en anglais. Il est homogène à la variable mesurée.
Les écarts types sont rencontrés dans tous les domaines où sont appliquées les probabilités et la statistique, en particulier dans le domaine des sondages, en physique, en biologie ou dans la finance. Ils permettent en général de synthétiser les résultats numériques d'une expérience répétée. Tant en probabilités qu'en statistique, il sert à l'expression d'autres notions importantes comme le coefficient de corrélation, le coefficient de variation ou la répartition optimale de Neyman.
Quand l'écart type d'une population est inconnu, sa valeur est approchée à l'aide d'estimateurs.
- Population de personnes de même taille
On considère une population de 4 personnes mesurant 2 m. La moyenne des tailles est de 2 m. Chaque valeur étant égale à la moyenne, l'écart type est de 0 m.
- Population de personnes de tailles différentes
On considère maintenant une population de 4 personnes de taille 2 m, 1,80 m, 2,20 m et 2 m. La moyenne est aussi de . Les écarts par rapport à la moyenne sont maintenant de 0 m, 0,20 m, 0,20 m et 0 m, respectivement. Ainsi l'écart type est la moyenne quadratique de ces écarts, c'est-à-dire , qui vaut environ 0,14 m.
L'écart type est une grandeur dont l'invention remonte au XIXe siècle, qui voit la statistique se développer au Royaume-Uni.
C'est à Abraham de Moivre qu'est attribuée la découverte du concept de mesure de la dispersion qui apparaît dans son ouvrage The Doctrine of Chances en 1718[b 1]. Mais le terme d'écart type (« standard deviation ») a été employé pour la première fois par Karl Pearson en 1893 devant la Royal Society[b 2]. C'est aussi Karl Pearson qui utilise pour la première fois le symbole σ pour représenter l'écart type[b 2]. En 1908, William Gosset, plus connu sous le pseudonyme de Student, définit l'écart type empirique d'un échantillon et montre qu'il est important de le distinguer de l'écart type d'une population[b 2]. La variance est une notion qui apparut plus tard, en 1918, dans un texte de Ronald Fisher intitulé The Correlation between Relatives on the Supposition of Mendelian Inheritance[i 1].
Définition
À partir d'un relevé exhaustif (x1, ..., xn) d'une variable quantitative pour tous les individus d'une population, l'écart type est la racine carrée de la variance, c'est-à-dire[b 3],[1],[2] :
où représente la moyenne. L'écart type est homogène à la variable mesurée, c'est-à-dire que si par un changement d'unité, toutes les valeurs sont multipliées par un coefficient α > 0, l'écart type sera multiplié par le même coefficient. En revanche, l'écart type est invariant par décalage additif : si on ajoute une constante à toutes les valeurs relevées, cela ne change pas l'écart type. Ces deux propriétés font de l'écart type un indicateur de dispersion.
Par contraste avec d'autres indicateurs de dispersion comme l'écart interquartile, l'écart type a l'avantage de pouvoir se calculer à partir des moyennes et écarts types sur une partition de la population, puisque la variance globale est la somme de la variance des moyennes et de la moyenne des variances. Cela permet de calculer l'écart type en parallèle.
L'écart type est implémenté en Python dans la bibliothèque numpy
avec la méthode std
. En R, la fonction sd
utilise à la place de [3], ce qui correspond à l'estimateur de l'écart-type d'une population à partir d'un échantillon.
Expression comme distance
L'écart type est la distance euclidienne du point de coordonnées à la droite diagonale engendrée par le vecteur dans , atteinte en son projeté orthogonal de coordonnées .
L'écart type est donc le minimum de la fonction qui calcule la distance entre M et le point de coordonnées (t, ..., t).
Coefficient de variation
L'écart type peut être utilisé pour comparer l'homogénéité de plusieurs populations sur une même variable. Par exemple, si on donne deux classes d'un même niveau moyen et évaluées selon les mêmes critères, la classe avec un plus fort écart type des notes sera plus hétérogène. Dans le cas d'une notation de à , l'écart type minimal est (notes toutes identiques), et peut valoir jusqu'à si la moitié de la classe à et l'autre moitié [Note 1].
En revanche, on ne peut comparer tels quels les écarts types de variables différentes, et dont les ordres de grandeur ne correspondent pas nécessairement. Pour une variable quantitative strictement positive, on définit alors le coefficient de variation, égal au quotient de l'écart type par la moyenne[b 4]. Ce nombre adimensionnel ne dépend pas de l'unité de mesure choisie et permet de comparer la dispersion de variables différentes.
Un coefficient de variation élevé peut éventuellement signaler l'existence d'une valeur aberrante. Un critère consiste à rejeter les valeurs qui diffèrent de la moyenne par plus de 3 fois l'écart type. Dans le cas d'une distribution gaussienne, la probabilité d'un tel dépassement[b 5] est de l'ordre de 3/1000.
Définition
La modélisation probabiliste d'une distribution statistique consiste à définir une variable aléatoire, c'est-à-dire une application X avec une mesure de probabilité , laquelle permet de définir les probabilités de la forme . La donnée de ces probabilités constitue la loi de probabilité[b 6] de X. La modélisation est fidèle si la probabilité d'un évènement correspond à la fréquence d'occurrence des valeurs correspondantes dans la population testée, conformément à la loi des grands nombres.
On s'intéresse ici aux variables aléatoires réelles ou vectorielles de carré intégrable, c'est-à-dire dont l'espérance E(X2) converge. Pour une variable vectorielle (à valeurs dans un espace vectoriel normé complet), l'espérance est un vecteur du même espace et le carré désigne le carré de la norme. L'ensemble de ces variables est lui-même un espace vectoriel.
L'écart type de X est la racine carrée de la variance[Note 2],[i 2] .
L'existence de l'écart type est assurée pour une variable aléatoire bornée ou admettant une fonction de densité dominée à l'infini par une fonction puissance avec α > 3.
Exemples
Dans le cas d'une variable aléatoire discrète dont les valeurs sont notées xi, avec , l'écart type s'écrit comme pour une série statistique :={\sqrt {\sum _{i=1}^{n}p_{i}(x_{i}-\mu )^{2}}}={\sqrt {\left(\sum _{i=1}^{n}p_{i}{x_{i}}^{2}\right)-\mu ^{2}}}} , où μ est l'espérance de la loi de X.
En particulier, si X est uniforme[b 7] sur un ensemble fini , c'est-à-dire si
- pour tout i entre 1 et n,
alors
- .
Dans le cas d'une variable aléatoire à densité pour laquelle les probabilités s'écrivent où f est une fonction localement intégrable, pour la mesure de Lebesgue par exemple, mais pas nécessairement une fonction continue[b 8], l'écart type de X est défini par où est l'espérance de X.
Avec ces formules et la définition, le calcul des écarts types pour les lois couramment rencontrées est aisé. Le tableau suivant donne les écarts types de quelques-unes de ces lois :
Nom de la loi | Paramètre(s) | Description | Écart type |
---|---|---|---|
Loi de Bernoulli[b 7] | p ∈ ]0 ; 1[ | Loi discrète sur {0 ; 1} avec une probabilité p d'obtenir 1 | |
Loi binomiale[b 9] | et p ∈ ]0 ; 1[ | Loi de la somme de n variables indépendantes suivant la loi de Bernoulli de même paramètre p | |
Loi géométrique[b 10] | p ∈ ]0 ; 1[ | Loi du rang de la première réalisation dans une suite de variables de Bernoulli indépendantes de même paramètre p | |
Loi uniforme sur un segment[b 11] | a < b | Loi de densité constante sur[a , b] | |
Loi exponentielle[b 11] | Loi à densité avec un taux de panne constant λ | ||
Loi de Poisson[b 12] | Loi sur du nombre de réalisations indépendantes sur de moyenne λ | ||
Loi du χ²[b 13] | n | Loi de la somme de n carrés de variables normales centrées réduites indépendantes | |
Si la variable X suit une loi log-normale alors ln X suit une loi normale et l'écart type de X est relié à l'écart type géométrique[b 14].
Mais toutes les lois de probabilité n'admettent pas forcément un écart type fini : la loi de Cauchy (ou loi de Lorentz) n'a pas d'écart type, ni même d'espérance mathématique[b 15].
Propriétés
- Positivité
- L'écart type est toujours positif ou nul. Celui d'une constante est nul.
- Invariance par translation
- L'écart type ne change pas si on ajoute une constante b à la variable aléatoire X : σX+b=σX.
- Homogénéité[Note 3],[b 16]
- Pour toute constante positive c et toute variable aléatoire réelle X, on a σcX = c σX.
- Somme algébrique de deux variables
- L'écart type de la somme de deux variables s'écrit[b 17] sous la forme
où ρ(X,Y) est le coefficient de corrélation entre les deux variables X et Y.
- Inégalité triangulaire
- L'écart type de la somme est majoré par la somme des écarts types[Note 4] :
- .
- De plus, il y a égalité si et seulement s'il existe une relation affine presque sûre entre les deux variables.
- Distance euclidienne
- L'écart type d'une variable aléatoire réelle X est la distance euclidienne de cette variable à la droite des constantes dans l'espace des variables admettant une variance[b 18]. C'est donc le minimum de la fonction , atteint sur la constante c = E(X).
Intervalle de fluctuation
En sciences, il est fréquent de considérer que les mesures d'une grandeur se répartissent selon une distribution gaussienne, par accumulation d'erreurs de mesure ou d'interférences indépendantes avec d'autres phénomènes, en application du théorème central limite. L'histogramme des valeurs observées se rapproche alors d'une courbe en cloche caractéristique de la loi normale. La courbe étant complètement définie par la donnée de la valeur moyenne et de l'écart type, ces deux valeurs permettent de définir un intervalle de fluctuation qui concentre l'essentiel des observations.
Le calcul des quantiles de cette loi montre par exemple que pour une grandeur satisfaisant cette distribution sur une population d'individus, avec une moyenne m et un écart type σ, 95 % des valeurs observées appartiendront à l'intervalle [m – 1,96 σ ; m + 1,96 σ] (voir 97,5e centile). On peut ainsi associer des probabilités à des intervalles de valeurs centrés sur la moyenne et dont l'amplitude est un multiple de l'écart type[b 19].
Écart maximal à la moyenne | Proportion des valeurs |
---|---|
68,27 % | |
95 % | |
95,45 % | |
99,73 % |
Dans l'industrie, l'écart type intervient dans le calcul de l'indice de qualité des produits manufacturés ou dans l'indice de fidélité d'un appareil de mesure[i 3],[i 4].
En physique des particules, la détection d'évènements est ainsi quantifiée en nombre de sigmas, représentant l'écart entre la valeur observée et la moyenne attendue en l'absence d'évènement. Un résultat est considéré comme significatif par l'obtention de 5 sigmas, représentant une probabilité d'erreur inférieure à 0,00006 % (soit niveau de confiance de plus de 99,99994 %)[i 5].
Dans le domaine de la communication financière, l'écart type est une mesure de la volatilité des cours des actions des sociétés cotées[b 20]. Les bandes de Bollinger sont des outils facilitant l'analyse des prévisions boursières. John Bollinger a construit la courbe des moyennes mobiles sur 20 jours et les courbes, de part et d'autre de cette courbe, situées à deux fois l'écart type sur ces 20 jours. John Bollinger a utilisé une définition adaptée de l'écart type[i 6]. En outre, le risque d'un actif boursier et le risque associé au marché sont mesurés par l'écart type de la rentabilité attendue, dans le modèle d'évaluation des actifs financiers de Harry Markowitz[i 7].
Variable centrée réduite
Si X est une variable aléatoire d'écart type non nul, on peut lui faire correspondre la variable centrée et réduite Z définie par . Deux variables aléatoires centrées et réduites Z1 et Z2 sont aisées à comparer, puisque E(Zi)=0 et σZi=1[b 21].
Le théorème central limite a pour objet la limite d'une suite de variables aléatoires centrées réduites[b 22], les coefficients de dissymétrie et d'aplatissement d'une densité de probabilité, E(Z3) et E(Z4), permettent de comparer des distributions différentes[b 23].
Coefficient de corrélation linéaire
Si X et Y sont deux variables aléatoires réelles admettant toutes les deux une variance non nulle, le coefficient de corrélation linéaire est le rapport où est la covariance des variables X et Y. D'après l'inégalité de Cauchy-Schwarz, ; le coefficient de corrélation prend ses valeurs dans l'intervalle [–1 ; +1][b 24].
Si les deux variables sont indépendantes, le coefficient de corrélation linéaire est nul, mais la réciproque est fausse.
Si le coefficient de corrélation linéaire vaut 1 ou −1, les deux variables sont presque sûrement en relation affine[b 25].
Inégalité de Bienaymé-Tchebychev
C'est grâce à l'inégalité de Bienaymé-Tchebychev que l'écart type apparaît comme une mesure de la dispersion autour de la moyenne. En effet, cette inégalité exprime que [b 26] et montre que la probabilité pour que X s'écarte de E(X) de plus de k fois l'écart type est inférieure à 1/k2[b 27].
Principe d'incertitude
En mécanique quantique, le principe d'incertitude d'Heisenberg exprime que le produit des écarts types de la position x et de l'impulsion p d'une particule est supérieur ou égal à la constante de Planck réduite divisée par deux, soit [i 8].