Classement fréquentiel (HU)

Traduction anglaise : Frequency analysis

Dernière mise à jour : 10/11/2021

Méthode statistique permettant par exemple de calculer la fréquence d'apparition d'un événement ou celle de dépassement d'un seuil pour une variable aléatoire.

Sommaire

1 Méthode de base
2 Raffinement de la méthode
3 Cas des séries temporelles et passage aux périodes de retour
4 Ajustement des fréquences empiriques
5 Précautions d'emploi

Méthode de base

Considérons une série de $ P $ valeurs correspondant à des réalisations d'une variable aléatoire obtenues sur un échantillon représentatif. Il peut par exemple s'agir des tailles d'un échantillon de $ P $ personnes ou, dans le domaine de l'hydrologie, des débits maximum observés sur un échantillon de $ P $ crues.

L'objectif est de déterminer la fréquence avec laquelle la valeur de la variable dépasse une valeur donnée pour pouvoir en déduire une probabilité de réalisation. On commence donc par affecter à chaque valeur une fréquence empirique de dépassement

Pour ceci, on classe les $ P $ valeurs par ordre décroissant : depuis $ x_1 $ la plus grande, jusqu'à $ x_p $ la plus petite. Considérons la plus grande valeur $ x_1 $. Comme le nombre total de valeurs dans l'échantillon est $ P $, on peut considérer que cette valeur $ x_1 $ est atteinte ou dépassée $ 1 $ fois pour $ P $ réalisations. Sa fréquence empirique de dépassement est donc de $ 1/P $. La valeur classée au deuxième rang, $ x_2 $, est pour sa part atteinte ou dépassée $ 2 $ fois sur le même échantillon. Sa fréquence empirique de dépassement est donc de $ 2/P $. En généralisant ce raisonnement, la valeur $ x_i $, classée au ième rang possède une fréquence empirique de dépassement égale à :

$ F_i = \frac{i}{P} \quad (1) $

Raffinement de la méthode

En fait, le raisonnement précédent doit être un peu compliqué. En effet, conduit sous cette forme, il amène à un paradoxe : la valeur $ x_p $ classée dernière, donc au $ pième $ rang, possède une fréquence empirique de dépassement de $ P/P $, c'est à dire de $ 1 $. Si l'on passe des statistiques aux probabilités, on serait donc certain d'observer, pour tout échantillon comportant $ P $ valeurs, au moins une valeur supérieure ou égale à cette valeur particulière, ce qui est bien évidemment illogique.

Pour éviter cet inconvénient, les statisticiens proposent de calculer la fréquence empirique de dépassement $ Fi $ en fonction du rang $ i $ par une formule de la forme :

$ F_i = \frac{i - a}{P + 1 - 2.a} \quad (2) $

où $ a $ dépend de la fonction de répartition de la variable que, dans la pratique, on ne connaît pas.

On choisit généralement $ a = 0,5 $, qui correspond à une fonction de répartition exponentielle de la variable (modèle de Hazen).

Cas des séries temporelles et passage aux périodes de retour

En hydrologie, ce type de traitement est surtout utilisé pour évaluer les fréquences temporelles d'apparition ou de dépassement d'une valeur caractéristique d'un événement hydrologique. On cherche ainsi à répondre à des questions de la forme : "Combien de crues ont atteint ou dépassé la valeur de débit Qmax au cours du siècle passé ?".

Nota : En pratique on raisonne souvent sur l'inverse de la fréquence temporelle que l'on appelle Période de retour :

$ T = \frac{1}{F}\quad (3) $

Pour ceci il suffit d'associer à l'échantillon une durée d'observation et de calculer les fréquences non pas par rapport au nombre $ P $ de réalisations dans l'échantillon mais par rapport à la durée d'observation $ D $.

$ F_i = \frac{i - a}{D + 1 - 2.a}\quad (4) $

Par exemple avec $ a = 0{,}5 $, si la durée d'observation est de 50 ans, la plus forte valeur (rang $ i = 1 $), aura une fréquence empirique de dépassement de 1/100, et donc une période de retour de 100 ans.

La relation (4) doit cependant être utilisée avec précaution. En effet le nombre de valeurs et la durée ne correspondent pas aux mêmes grandeurs. En particulier le nombre de valeurs est fixe alors que la durée d'observation dépend de l'unité choisie pour la mesurer (année, mois, jour, etc.).

De plus la durée d'observation à retenir n'est égale à la durée pendant laquelle les données ont été recueillies que si l'échantillon est complet, c'est à dire si tous les événements significatifs ont effectivement été enregistrés. Or il arrive souvent en hydrologie que les séries de données soient lacunaires (généralement du fait de pannes du capteur). Dans ce cas la durée réelle d'observation doit être réduite, à moins que l'on fasse le choix de compléter artificiellement la série (par exemple, dans le cas de la panne d'un pluviomètre, en utilisant sur la période manquante les données d'un pluviomètre voisin).

Ajustement des fréquences empiriques

Une fois les fréquences empiriques calculées le passage des statistiques aux probabilités nécessite la construction d'une relation analytique permettant de lisser les valeurs.

Ce lissage peut se faire de façon totalement empirique en choisissant une fonction d'approximation et en utilisant par exemple la méthode des moindres carrés. Cependant on préfère souvent postuler a priori une loi de distribution statistique des valeurs. Cette distribution statistique est souvent choisie pour bien représenter les valeurs les plus fortes. Les distributions correspondantes sont fortement dissymétriques et, en hydrologie, les valeurs extrêmes correspondant à de grandes périodes de retour sont le plus souvent ajustées par des modèles exponentiels (lois de valeurs extrêmes).

Le modèle le plus classique est le modèle de Gumbel qui ajuste la relation entre la fréquence $ F(x) $ et la variable hydrologique $ x $ par une relation de la forme :

$ F(x) = e^{-e^{-\frac{x-b}{a}}}\quad (5) $

Cette relation peut facilement être linéarisée :

$ \frac{x-b}{a} = ln(-ln(F(x)))\quad (6) $

Soit en posant :

$ X = ln(-ln(F(x)))\quad (7) $

$ Y = a.X + b\quad (8) $

Les valeurs de $ a $ et $ b $ sont alors facilement calculées en ajustant au mieux les valeurs empiriques de $ X_i $ et $ F_i $.

Précautions d'emploi

Cette méthode, malgré sa simplicité, doit être utilisée avec précautions. Différents biais sont en effet possibles.

L'échantillon est-il représentatif de la population étudiée ?

Le premier biais porte sur l'homogénéité de la population étudiée et la représentativité de l'échantillon. Imaginons par exemple que l'on s'intéresse au poids maximum que peut atteindre un animal. Tout se passe bien si l'échantillon comprend uniquement des cochons et que ce soit la probabilité que ce type d'animal dépasse une certaine valeur qui nous intéresse. Mais si, avec le même échantillon composé uniquement de cochons, on s'intéresse au poids maximum que peut atteindre un animal de ferme, on sera très surpris lorsque l'on pèsera un bœuf. En matière d'hydrologie, ce risque est très présent. Les phénomènes générateurs des précipitations sont en effet divers et leurs conséquences hydrologiques peuvent être très différentes. Analyser uniquement une variable aléatoire (par exemple le débit maximum de crue), sans se préoccuper de la nature des phénomènes générateurs fait courir le risque de mélanger des populations d'événements différentes dont la fréquence relative peut changer dans le temps (voir le § "Le futur sera-t-il semblable au passé ?".

La durée d'observation est-elle suffisante ?

Un autre biais possible concerne la durée d'observation relativement à la période de retour d'intérêt. Les durées d'observations sont en effet souvent relativement courtes (on ne dispose par exemple, sauf exception, de séries pluviométriques à des pas de temps courts que depuis une cinquantaine d'années) et les phénomènes hydrologiques important se manifestent de façon extrêmement irrégulière. Il est par exemple parfaitement possible d'observer deux crues de période de retour 10 ans dans la même année et de rester ensuite plusieurs dizaines d'années sans en observer une nouvelle. De ce fait on peut considérer qu'une durée d'observation de T années permet d'estimer correctement le risque de dépassement d'une valeur pour une période de retour de T/3 années au maximum. En aucun cas cette durée d'observation ne permet d'estimer le risque pour une période de retour supérieure à la durée d'observation.

Nota : Sous certaines conditions, des méthodes permettent de dépasser la durée de la période d'observation : voir "Année station (méthode des)" et "Gradex"

Le futur sera-t-il semblable au passé ?

Une hypothèse extrêmement forte est nécessaire pour passer des statistiques (qui utilisent les données du passé) aux probabilités (que l'on souhaite utiliser pour estimer les risques futurs) : la stabilité des phénomènes dans le temps. En d'autres termes, cette approche n'a de sens que si le futur est semblable au passé. Or les conséquences du changement climatique en matière d'hydrologie rendent cette hypothèse très peu probable.

De plus les évolutions risquent d'être catastrophiques (au sens de la théorie des catastrophes de Thom), c'est à dire ne pas se caractériser par une évolution régulière mais par des "bifurcations". Par exemple, il est possible d'observer en France une remontée vers le Nord des phénomènes pluvieux que l'on observe actuellement uniquement près de la Méditerranée. Ceci rejoint le premier point évoqué : les pluies maximum que l'on pourra alors observer dans les zones concernées ne correspondront pas à la population sur laquelle on a établi les statistiques. Elles ne peuvent donc pas être estimées par cette méthode, de la même façon que des statistiques sur le poids des cochons ne permettent pas de prévoir le poids possible d'un bœuf.

Si la technique du classement fréquentiel est facile et extrêmement utile, il est donc cependant très important de toujours garder un regard critique sur les enseignements que nous pouvons en tirer.