S'abonner à un flux RSS
 

Classement fréquentiel (HU)

De Wikhydro

Traduction anglaise : Frequency analysis

Dernière mise à jour : 10/09/2021

Méthode statistique permettant par exemple de calculer la fréquence d'apparition d'un événement ou celle de dépassement d'un seuil pour une variable aléatoire.

Sommaire

Méthode de base

Considérons une série de $ P $ valeurs correspondant à des réalisations d'une variable aléatoire obtenues sur un échantillon représentatif. Il peut par exemple s'agir des tailles d'un échantillon de $ P $ personnes ou, dans le domaine de l'hydrologie, des débits maximum observés sur un échantillon de $ P $ crues.

L'objectif est de déterminer la fréquence avec laquelle la valeur de la variable dépasse une valeur donnée pour pouvoir en déduire une probabilité de réalisation. On commence donc par affecter à chaque valeur une fréquence empirique de dépassement

Pour ceci, on classe les $ P $ valeurs par ordre décroissant : depuis $ x_1 $ la plus grande, jusqu'à $ x_p $ la plus petite. Considérons la plus grande valeur $ x_1 $. Comme le nombre total de valeurs dans l'échantillon est $ P $, on peut considérer que cette valeur $ x_1 $ est atteinte ou dépassée $ 1 $ fois pour $ P $ réalisations. Sa fréquence empirique de dépassement est donc de $ 1/P $. La valeur classée au deuxième rang, $ x_2 $, est pour sa part atteinte ou dépassée $ 2 $ fois sur le même échantillon. Sa fréquence empirique de dépassement est donc de $ 2/P $. En généralisant ce raisonnement, la valeur $ x_i $, classée au ième rang possède une fréquence empirique de dépassement égale à :


$ F_i = \frac{i}{P} \quad (1) $

Raffinement de la méthode

En fait, le raisonnement précédent doit être un peu compliqué. En effet, conduit sous cette forme, il amène à un paradoxe : la valeur $ x_p $ classée dernière, donc au $ pième $ rang, possède une fréquence empirique de dépassement de $ P/P $, c'est à dire de $ 1 $. Si l'on passe des statistiques aux probabilités, on serait donc certain d'observer, pour tout échantillon comportant $ P $ valeurs, au moins une valeur supérieure ou égale à cette valeur particulière, ce qui est bien évidemment illogique.

Pour éviter cet inconvénient, les statisticiens proposent de calculer la fréquence empirique de dépassement $ Fi $ en fonction du rang $ i $ par une formule de la forme :


$ F_i = \frac{i - a}{P + 1 - 2.a} \quad (2) $

$ a $ dépend de la fonction de répartition de la variable que, dans la pratique, on ne connaît pas.

On choisit généralement $ a = 0,5 $, qui correspond à une fonction de répartition exponentielle de la variable (modèle de Hazen).

Cas des séries temporelles et passage aux périodes de retour

En hydrologie, ce type de traitement est surtout utilisé pour évaluer les fréquences temporelles d'apparition ou de dépassement d'une valeur caractéristique d'un événement hydrologique. On cherche ainsi à répondre à des questions de la forme : "Combien de crues ont atteint ou dépassé la valeur de débit Qmax au cours du siècle passé ?".

Nota : En pratique on raisonne souvent sur l'inverse de la fréquence temporelle que l'on appelle Période de retour :

$ T = \frac{1}{F}\quad (3) $

Pour ceci il suffit d'associer à l'échantillon une durée d'observation et de calculer les fréquences non pas par rapport au nombre $ P $ de réalisations dans l'échantillon mais par rapport à la durée d'observation $ D $.


$ F_i = \frac{i - a}{D + 1 - 2.a}\quad (4) $

Par exemple avec $ a = 0{,}5 $, si la durée d'observation est de 50 ans, la plus forte valeur (rang $ i = 1 $), aura une fréquence empirique de dépassement de 1/100, et donc une période de retour de 100 ans.

La relation (4) doit cependant être utilisée avec précaution. En effet le nombre de valeurs et la durée ne correspondent pas aux mêmes grandeurs. En particulier le nombre de valeurs est fixe alors que la durée d'observation dépend de l'unité choisie pour la mesurer (année, mois, jour, etc.).

De plus la durée d'observation à retenir n'est égale à la durée pendant laquelle les données ont été recueillies que si l'échantillon est complet, c'est à dire si tous les événements significatifs ont effectivement été enregistrés. Or il arrive souvent en hydrologie que les séries de données soient lacunaires (généralement du fait de pannes du capteur). Dans ce cas la durée réelle d'observation doit être réduite, à moins que l'on fasse le choix de compléter artificiellement la série (par exemple, dans le cas de la panne d'un pluviomètre, en utilisant sur la période manquante les données d'un pluviomètre voisin).

Ajustement des fréquences empiriques

Une fois les fréquences empiriques calculées le passage des statistiques aux probabilités nécessite la construction d'une relation analytique permettant de lisser les valeurs.

Ce lissage peut se faire de façon totalement empirique en choisissant une fonction d'approximation et en utilisant par exemple la méthode des moindres carrés. Cependant on préfère souvent postuler a priori une loi de distribution statistique des valeurs. Cette distribution statistique est souvent choisie pour bien représenter les valeurs les plus fortes. Les distributions correspondantes sont fortement dissymétriques et, en hydrologie, les valeurs extrêmes correspondant à de grandes périodes de retour sont le plus souvent ajustées par des modèles exponentiels (lois de valeurs extrêmes).

Le modèle le plus classique est le modèle de Gumbel qui ajuste la relation entre la fréquence $ F(x) $ et la variable hydrologique $ x $ par une relation de la forme :


$ F(x) = e^{-e^{-\frac{x-b}{a}}}\quad (5) $

Cette relation peut facilement être linéarisée :


$ \frac{x-b}{a} = ln(-ln(F(x)))\quad (6) $

Soit en posant :


$ X = ln(-ln(F(x)))\quad (7) $


$ Y = a.X + b\quad (8) $

Les valeurs de $ a $ et $ b $ sont alors facilement calculées en ajustant au mieux les valeurs empiriques de $ x_i $ et $ F_i $.

Cas particulier des données pluviométriques

Le classement fréquentiel constitue l'une des étapes importantes de la construction des courbes Intensité-durée-fréquence.

Outils personnels