S'abonner à un flux RSS
 

Validation d'un modèle (HU)

De Wikhydro

Traduction anglaise : Model validation, Model verification

Logo eurydice.jpg

Dernière mise à jour : 10/04/2024

Processus par lequel on démontre la capacité d’un modèle à représenter un ou plusieurs phénomènes physiques en s'appuyant sur des preuves évidentes, sur le raisonnement ou sur des données totalement indépendantes de celles ayant permis de le construire (c'est à dire obtenues sur d'autres sites, représentatives d’un autre aspect et différentes de celles ayant servi à son élaboration, ses tests et son calage).

Sommaire

Introduction : limites de l'article et définitions

Qu'entendons-nous exactement par validation d'un modèle en hydrologie ?

En toute rigueur, il est impossible de démontrer qu'une théorie ou un modèle est juste. Tout au plus peut-on démontrer que ses prévisions sont, jusqu'ici et avec un niveau de précision donné, conformes aux observations.

Nous nous contenterons donc d'une définition moins générale et appliquée aux domaines de l'hydrologie et de l'assainissement.

Nous parlerons de validation pour désigner le processus qui consiste à s'assurer, qu'une fois calé (voir nota ci-dessous), le modèle est capable de fournir des résultats cohérents pour un ensemble de phénomènes jugés prépondérants. On devrait d'ailleurs, dans ce cas, plutôt parler de vérification. C'est cependant uniquement cet aspect qui sera développé dans cet article et nous parlerons de façon équivalente de validation ou de vérification.

Nota : C’est bien souvent lors des phases de validation / vérification que l’on s’aperçoit que le calage préalable du modèle mérite d’être davantage approfondi. La validation/vérification est donc un processus itératif qui nécessite le plus souvent plusieurs allers-retours entre phases de calage et de vérification

Nous raisonnerons de plus dans le cadre des modèles opérationnels, construits pour atteindre un objectif spécifique.

Termes utilisés dans cet article

Il y a souvent une confusion entre plusieurs termes au sens proches mais cependant différents (Moriasi et al, 2015, Bonneau, et al, 2021). Dans cet article nous utiliserons les définitions suivantes :

  • variables d'intérêt : il s'agit des grandeurs pour lesquelles il est possible de comparer les valeurs mesurées (ou obtenues à partir de mesures lorsque la mesure directe est impossible) et les valeurs produites par le modèle ; il peut par exemple s'agir de hauteurs d'eau, de vitesses, de débits, de volumes, de concentrations, de masses, etc. ;
  • indicateur (ou sous-critère) : il s'agit d'une mesure de l'écart constaté entre les valeurs mesurées et les valeurs estimées ; on peut par exemple utiliser la valeur absolue d'un écart, la somme des carrés des écarts, le critère de Nash-Sutcliffe, etc. ;
  • critère de décision ou de validation : de façon générique, il s'agit d'un élément de référence permettant de porter un jugement de valeur ou de participer à une prise de décision ; dans notre cas un critère sera constitué par un ou plusieurs indicateur(s) comparé(s) à une ou plusieurs valeur(s) de référence.

La démarche de vérification doit permettre dans ce cas de s'assurer que le modèle permet d'atteindre l'objectif fixé avec un niveau donné de confiance. Elle comprend plusieurs étapes idéalement successives, mais le plus souvent mises en œuvre de façon itérative :

  • sélection des variables d'intérêt en fonction de l'objectif poursuivi ;
  • sélection des indicateurs permettant de comparer les valeurs mesurées aux valeurs observées (écart quadratique, écart maximum, critère de Nash-Sutcliffe, etc.) ;
  • choix des critères de décision ou de validation (ensemble de sous-critères associés à des écarts acceptables) permettant de vérifier que le niveau de confiance attendu est bien obtenu ;
  • choix du processus de décision finale dans le cas où plusieurs critères sont utilisés (agrégation des critères, élaboration d'une note de qualité, etc.)
  • mise en œuvre de la démarche : acquisition et exploitation des variables d'intérêt (en général par des mesures, si possible obtenues en continu, et/ou d’observations), calcul des indicateurs, choix des valeurs seuils de référence pour chaque indicateur, évaluation des critères de décision.

Choix des variables d'intérêt et des indicateurs

Considérations générales

Les modèles hydrologiques ou hydrauliques qui font l'objet de cet article peuvent être construits pour répondre à des objectifs très divers. Les variables et grandeurs d’intérêt, ainsi que les indicateurs et les critères de décision, doivent donc être choisis en fonction des objectifs retenus. Sans prétendre à l'exhaustivité, nous illustrerons ces choix au travers de 3 exemples représentatifs :

  • modèles destinés à représenter les crues majeures d'un cours d'eau ;
  • modèles destinés à établir le diagnostic de fonctionnement hydraulique d'un réseau d'assainissement ;
  • modèles destinés à représenter quantitativement les rejets urbains de temps de pluie, par exemple dans le cadre de l'autosurveillance.

Quel que soit l'objectif, les variables d'intérêt et indicateurs qui vont servir à l'évaluation doivent présenter des qualités communes minimales (ASCE, 1993):

  • représentativité vis à vis des phénomènes étudiés et des objectifs à atteindre ;
  • mesurabilité et capacité à être calculés à partir des données disponibles ;
  • objectivité.

Dans tous les cas la méthode reposera généralement sur des campagnes de mesures permettant de comparer les valeurs obtenues à partir des mesures et observations aux valeurs résultant des modélisations. Trois conditions importantes devront systématiquement être respectées :

  • utiliser impérativement pour la vérification des "événements hydrologiques" différents de ceux ayant été préalablement utilisés pour le calage ;
  • utiliser un nombre d'événements d'autant plus important que les incertitudes sur les mesures et la variabilité des phénomènes sont grandes (10 à 15 événements représentatifs peuvent suffire pour l’hydrologie quantitative, il en faut 30 à 40 si l’on s’intéresse à la qualité) ;
  • utiliser des événements hydrologiques représentatifs de ceux visés par les objectifs de la modélisation.

Nota : Lorsque la modélisation est confiée à un bureau d'études, on limite souvent la durée de la campagne de mesures pour des raisons à la fois économiques et de délais. Or il est très peu probable, sur une durée courte, d'observer un nombre d'événements significatifs suffisants pour réaliser à la fois le calage et la vérification du modèle. Cet aspect constitue souvent le facteur qui limite le plus la qualité des modèles.

Cas des modèles destinés à représenter les crues majeures d'un cours d'eau

Ce type de modèle peut être construit spécifiquement pour un cours d'eau donné, voire pour une portion particulière de ce cours d'eau ou pour une classe particulière de cours d'eau. Dans ce dernier cas on distingue en général la validation interne, c'est à dire la capacité du modèle à reproduire les crues sur les cours d'eau sur lesquels il a été calé, et la validation externe, c'est à dire sa capacité à reproduire des crues sur des cours d'eau non utilisés pour le calage.

Dans tous les cas on s'intéresse par définition à des événements rares. La probabilité d'observer une crue majeure dans un délai raisonnable après la construction du modèle est donc très faible. Les événements utilisables pour la vérification seront donc nécessairement des événements historiques. Ceci peut contraindre fortement les variables d'intérêt et les indicateurs utilisables qui ne pourront reposer que sur les données disponibles. Les variables les plus intéressantes à comparer, par ordre d'intérêt et pour différentes crues, sont les suivantes (Yang et Parent, 1996):

  • le niveau d'eau maximum atteint en différents points d'intérêt (ce critère prime car l'évaluation correcte du risque d'inondation constitue généralement l'objectif principal) ;
  • le débit maximum atteint en différents points d'intérêt ;
  • le volume de la crue ;
  • le temps de montée (important pour avertir les populations exposées) ;
  • la forme de l'hydrogramme de crue.

Les indicateurs utilisables pour comparer les valeurs observées et les valeurs calculées dépendent bien évidemment des variables étudiées. Les plus classiques sont les suivants :

  • le critère de Nash-Sutcliffe : permet de vérifier si le modèle représente la dynamique du phénomène étudié et représente bien les valeurs extrêmes ; les résultats sont généralement jugés satisfaisants lorsqu’une valeur supérieure à 0.7 est atteinte pour cet indicateur (voir Nash-Sutcliffe (critère de) (HU)) ;
  • l'écart moyen (Pbias pour percent bias en anglais): permet de voir si le modèle a tendance à sous-estimer ou surestimer les valeurs des variables ou grandeurs physiques d’intérêt ;
  • l'écart quadratique moyen (RMSE pour root mean square error en anglais) : peut être comparé aux incertitudes de mesure pour juger de la fiabilité du modèle.

Cet indicateurs peuvent être appliqués sur chaque crue élémentaire ou sur un ensemble de crues. D’autres moyens de contrôle peuvent être mobilisés en fonction des objectifs de l’étude. Il s’agit par exemple de l’analyse fréquentielle ou de la comparaison des cumuls (voir les exemples plus loin dans l’article).

Cas des modèles destinés à établir le diagnostic de fonctionnement hydraulique d'un réseau d'assainissement

Les modèles de ce type utilisent généralement un logiciel générique spécifiquement adapté sur le réseau à étudier. Les logiciels disponibles (CANOE, Hydranet, InfoWorks, PCSWMM, ...), reposent sur des modélisations mathématiques assez voisines et sont tous parfaitement capables de représenter correctement le fonctionnement hydraulique d'un réseau d'assainissement complexe à deux conditions :

  • que la structure physique du réseau et en particulier des ouvrages spéciaux comme les déversoirs d'orage ait été correctement décrite ;
  • que le modèle ait été correctement calé sur un nombre suffisant de points et d'événements pluvieux représentatifs (en particulier incluant des pluies suffisamment fortes pour provoquer des dysfonctionnements du réseau).

Nota : Remplir ces deux conditions demande du temps et de la patience de la part des collectivités. Il est en particulier indispensable de considérer la construction d'un modèle comme un processus de longue haleine, alternant des phases de calage, d'amélioration du modèle et de vérification.

Pour ce type de problème, les variables les plus intéressantes à comparer, également par ordre d'intérêt et pour différents événements, sont les suivantes :

  • situation des points de débordements simulés et observés ;
  • valeurs des volumes débordés par sous-bassins versants, par sous-réseaux ou par rue ;
  • débits maximum à différents points d'intérêt.

Cas des modèles destinés à représenter les rejets urbains de temps de pluie, par exemple dans le cadre de l'autosurveillance

Comme pour le cas précédent, les modèles de ce type utilisent généralement un logiciel générique spécifiquement adapté sur le réseau à étudier. De la même façon on n'évalue donc pas vraiment la qualité du logiciel générique, supposée suffisante, mais celle de la représentation du réseau et celle du calage. La remarque du nota précédent reste donc valable.

Du fait de l'objectif, la qualité de représentation des déversoirs d'orage est ici prépondérante.

Les variables d'intérêt et/ou indicateurs possibles sont les suivantes :

  • volume totaux rejetés par les déversoirs d'orage sur une base de temps donnée (typiquement l'année), ceci par branche du réseau, ou par milieu récepteur, ou éventuellement par déversoir pour les plus importants d'entre eux ou si leur nombre total est réduit ;
  • classement fréquentiel des volumes rejetés pendant une certaine période de temps (pluriannuelle) pour les événements les plus forts observés, ceci par branche du réseau, ou par milieu récepteur, ou éventuellement par déversoir pour les plus importants d'entre eux ;
  • volumes individuels rejetés pour un ensemble représentatif de déversoirs et d'événements pluvieux.

L'exemple présenté dans la dernière partie de cet article détaille certains de ces éléments et illustre la démarche.

Nota : Pour le calage des modèles de ce type il est intéressant d'utiliser des hydrogrammes observés en différents points d'intérêt du réseau plutôt que ceux mesurés sur les déversoirs eux-mêmes ; le fait que les indicateurs utilisés pour le calage soient différents de ceux utilisés pour la validation permet de conforter la confiance que l'on peut avoir dans le modèle.

Comment valider un modèle

Avoir défini des indicateurs permettant de mesurer avec le maximum d'objectivité et de représentativité les écarts entre les grandeurs d'intérêt mesurées et calculées est cependant insuffisant. Il est encore nécessaire d'utiliser ces indicateurs pour construire un ou plusieurs critères de décision. Ce travail nécessite deux étapes distinctes :

  • définir des valeurs seuils de qualité pour chaque indicateur permettant de juger de la qualité du modèle vis à vis de cet indicateur particulier ;
  • définir un protocole permettant de porter un jugement global à partir de la comparaison des valeurs obtenus pour chacun des indicateurs avec les valeurs seuils choisies.

Détermination des valeurs seuils à appliquer aux indicateurs

Les valeurs seuils doivent au minimum permettre de décider si le résultat fourni par le modèle est acceptable ou non. En pratique, comme on utilise souvent plusieurs indicateurs, eux mêmes appliqués à différents événements hydrologiques et/ou à différentes localisations, un seuil unique d'acceptabilité est souvent insuffisant et il peut être préférable de définir différents seuils de qualité pour chaque indicateur.

Par exemple si on considère que l'un des indicateurs est le plus grand écart entre les volumes mesurés et les volumes calculés obtenus en un point particulier pour une pluie particulière, on peut définir différents seuils de qualité:

  • excellente représentation si l'écart est inférieur à 5%,
  • très bonne représentation si l'écart est compris entre 5% et 10%,
  • bonne représentation si l'écart est compris entre 10% et 20%,
  • représentation acceptable si l'écart est compris entre 20% et 50%,
  • représentation non acceptable si l'écart est supérieur à 50%.

On pourra ainsi plus facilement agréger les valeurs obtenues pour différentes pluies et différents lieux pour produire un critère de décision.

La détermination de ces seuils doit se faire en prenant en compte deux éléments essentiels:

  • l'incertitude sur la valeur des indicateurs ;
  • la façon dont les écarts sont susceptibles de modifier la prise de décision.

Prise en compte des incertitudes

Déterminer la valeur des seuils de qualité pour un indicateur donné suppose impérativement d'avoir au préalable déterminé les incertitudes sur sa valeur. Tout écart inférieur à cette incertitude est en effet non significatif. l'incertitude sur l'indicateur dépend des incertitudes sur les variables d'intérêt qui servent à son calcul, c'est à dire à la fois de l'incertitude sur les valeurs mesurées et de l'incertitude sur les valeurs produites par le modèle.

Incertitude sur les valeurs mesurées

L'incertitude sur les valeurs mesurées dépend bien évidemment du paramètre considéré (hauteur, débit, concentration, etc.) mais aussi des conditions de son acquisition (nombre et qualité des capteurs, qualité du suivi du site, etc.) et de la qualité de la chaine de validation des données.

Elle est généralement difficile à déterminer, d'autant que l'on ne mesure pas toujours directement la variable d'intérêt. Par exemple, la mesure du débit d'une rivière est généralement faite en mesurant une hauteur d'eau et en utilisant une courbe de tarage. L'incertitude sur le débit dépend donc de l'incertitude sur la hauteur d'eau, relativement simple à évaluer, mais surtout de l'incertitude sur la courbe de tarage, souvent très grande pour les débits forts pour lesquels on ne dispose souvent que de peu de jaugeages (voir : B.09 - Incertitudes de la courbe de tarage).

De plus, selon les capteurs et la chaine de traitement utilisée pour enregistrer et transmettre les données, la mesure peut produite des artefacts qui ne sont pas toujours éliminés par la procédure de validation des données.

Il est donc nécessaire d'être très prudent et de ne pas considérer la mesure comme une référence absolue ou de ne prendre en compte que l'incertitude annoncée par le fabricant du capteur.

Incertitudes sur les valeurs produites par le modèle

Si on considère que l'incertitude sur la description physique du système hydrologique (caractéristiques des surfaces productrices et du réseau hydrographique) fait partie de la qualité du modèle dont on cherche à évaluer les performances (ce qui peut se discuter selon la définition que l'on donne du modèle), l'incertitude sur les valeurs produites par le modèle dépend uniquement de l'incertitude sur les entrées, et tout particulièrement sur les entrées pluviométriques.

L'incertitude sur la pluie dépend des capteurs mis en œuvre pour la mesurer (densité et qualité du réseau de pluviomètres au sol, utilisation des données d'un radar météorologique, etc.), mais aussi, comme précédemment, de la qualité du suivi du site et de la qualité de la chaine de validation des données. Les incertitudes associées à la façon dont on traite ces mesures pour calculer les intensités d'eau précipitées en chaque point peuvent pour leur part être imputées à la qualité du modèle. L'incertitude sur la pluie peut être très grande, particulièrement pour les épisodes brefs et intenses qui requièrent une densité de pluviomètres très importantes pour bien saisir la variabilité spatiale et temporelle du phénomène.

La détermination de l'incertitude sur les variables d'intérêt produites par le modèle en fonction de l'incertitude sur les entrées pluviométriques n'est généralement pas possible analytiquement. En revanche elle peut être faite expérimentalement en effectuant un grand nombre de simulations utilisant les différents entrées pluviométriques compatibles avec les incertitudes sur cette grandeur et en traitant statistiquement les incertitudes observées sur les variables d'intérêt. Quoique simple dans son principe, ce traitement n'est malheureusement que rarement effectué car il nécessite un travail important. Ceci est dommageable car, du fait de la complexité de la réponse des systèmes hydrologiques, l'incertitude sur les variables d'intérêt peut être très différente de celle sur la pluie.

Incertitudes sur la valeur des indicateurs

Une fois déterminé l'incertitude sur les variables d'intérêt, le calcul de l'incertitude sur la valeur des indicateurs peut se faire en utilisant les méthodes classiques de calcul d'incertitudes. Selon la forme mathématique de l'indicateur, l'incertitude sur l'indicateur pourra être beaucoup plus grande ou beaucoup plus petite que la somme des incertitudes sur les variables d'intérêt qu'il cherche à comparer.

Comme les incertitudes qui affectent les valeurs mesurées et calculées sont souvent très importantes pour un événement particulier et un point particulier, il est donc préférable de privilégier des indicateurs intégrateurs prenant en compte différents instants dans un même événement et/ou différents événements et/ou différents points de comparaison. Comme les composantes aléatoires de l'incertitude, essentiellement liées aux incertitudes de mesure, ont statistiquement tendance à se compenser, l'incertitude sur l'indicateur sera alors d'autant plus faible et qu'il intégrera beaucoup de valeurs individuelles. Un indicateur très intégrateur permettra alors de juger assez facilement des erreurs systématiques induites par le modèle. L'équilibre est plus difficile à trouver lorsque l'on veut évaluer les erreurs aléatoires dues au modèle.

Nota : Il est important de ne pas confondre incertitude et absence de justesse. L'incertitude traduit la dispersion des valeurs. Un indicateur bien conçu est tel que, si le modèle est juste, sa valeur tend vers la valeur idéale (par exemple écart nul, en moyenne, entre les valeurs observées et les valeurs attendues) lorsque l'on augmente le nombre de valeurs (la part aléatoire des écarts tend vers zéro pour un modèle juste).

Significativité des écarts sur les indicateurs

Un autre élément important pour choisir les seuils de qualité sur les indicateurs consiste à se demander quel écart entre deux valeurs particulières d'un indicateur (ou parfois d'une variable d'intérêt) est nécessaire pour conduire à un changement de stratégie ou à une prise de décision différente. Considérons par exemple le volume moyen annuel rejeté par un déversoir d'orage ; imaginons que la valeur mesurée soit de 1000m3 par an et qu'une action consistant par exemple à remonter le seuil ne soit considérée comme nécessaire que dans le cas où ce volume dépasserait 5000m3. Tout résultat de modèle fournissant une valeur inférieure à 5000m3 conduirait alors à une décision identique à celle prise en utilisant les valeurs mesurées. De ce point de vue le modèle pourrait donc être considéré comme satisfaisant.

Il est à noter que cette façon de définir les seuils, complémentaires de celle sur les incertitudes, peut conduire à des valeurs de seuils de qualité très différents pour un même indicateur selon le contexte. Dans l'exemple précédent on peut choisir un seuil d'acceptabilité très grand (+/- 4000 m3) pour l'indicateur car il y a beaucoup d'écart entre la valeur mesurée et la valeur provoquant le changement de décision. Le résultat aurait été totalement différent si la décision d'agir devait être prise dès que le volume annuel rejeté dépasse 1000m3 par an.

Conclusions sur les seuils de qualité

La variabilité des situations est telle qu'il est impossible de donner ne serait-ce que des ordres de grandeur à des valeurs relatives ou absolues pour des seuils de qualité et/ou d'acceptabilité consernant les indicateurs de qualité. Ce travail ne peut être mené que localement en fonction des indicateurs choisis, du contexte et des objectifs.

Construction et utilisation des critères de décision

Une fois les indicateurs choisis et les seuils de qualité fixés, il devient possible de définir un, ou généralement plusieurs, critère(s) de qualité qui vont permettre de porter un jugement sur l'aptitude du modèle à représenter correctement les phénomènes d'intérêt.

Construction des critères

Les critères vont se construire à partir à partir des indicateurs.

Dans le cas le plus simple on assimile directement le critère à l'indicateur. On parle par exemple du critère de Nash-Sutcliffe.

Cette solution conduit cependant à un grand nombre de critères. Par exemple si on essaye de valider le modèle sur 20 événements pluvieux en utilisant le critère de Nash-Sutcliffe calculé chaque fois sur 10 points, on obtient 200 valeurs qui ne sont pas nécessairement simples à utiliser. Les critères sont donc généralement construits en agrégeant plusieurs valeurs du même indicateur mesurées pour des événements différents et/ou en des points différents.

L'agrégation peut se faire d'un grand nombre de façons, par exemple :

  • en utilisant des opérateurs simples : moyenne, éventuellement pondérée en fonction de l'intérêt que l'on porte au point ou à l'événement, valeur maximum, valeurs cumulées, etc., comparées aux différents seuils ;
  • en utilisant des analyses fréquentielles : distribution statistique des valeurs de l'indicateur, pourcentage de valeurs dépassant les différents seuils, etc.
  • en attribuant une note de qualité en fonction d'opérateurs logiques, par exemple : si aucune valeur de l'indicateur n'est inférieur au seuil d'acceptabilité et que la valeur moyenne de l'indicateur est bonne alors le modèle est considéré comme bon vis-à-vis de ce critère ;
  • etc.

Évaluation de la qualité du modèle en fonction de critères multiples

La situation se complique encore lorsque l'on souhaite utiliser des critères multiples issus d'indicateurs différents. Imaginons par exemple que l'on dispose d'une quinzaine d'années de données de validation et que l'on choisisse comme indicateurs :

  • l'écart sur le nombre moyen annuel de rejets,
  • l'écart sur le volume moyen annuel rejeté par chacun des déversoirs d'orage.

Il est bien sur possible de construire pour chacun des deux indicateurs un critère utilisant une appréciation commune de qualité (par exemple une note sur 10) et d'utiliser un opérateur simple (par exemple la moyenne des notes) pour les agréger et produire un critère unique.

Cette solution peut cependant masquer des anomalies fortes et conduit à ajouter des carottes et des lapins (ce qui peut ne pas être toujours conservatif!). Il est donc souvent préférable d'utiliser une méthode multicritère d'aide à la décision, ce qui permet d'ailleurs souvent de choisir des critères dépendant plus directement de la valeur des indicateurs.

Dans le cas des deux indicateurs précédents on peut par exemple assimiler directement chacun des deux critères aux indicateurs et représenter les valeurs de nombres moyens annuels de rejets et de volumes moyens annuels rejetés par chacun de ces déversoirs sur un graphe à deux dimensions (figure 1). En reportant sur le graphe les valeurs des seuils de qualité retenus pour chaque indicateur on partage l'espace en différentes zones auxquelles on peut associer une appréciation de qualité (représentée sur le graphe par une couleur).


Figure 1 : Exemple de représentation multicritère de la qualité d'un modèle ; dans ce cas les critères retenus correspondent directement aux indicateurs : écart sur le nombre moyen annuel de rejets et écart sur le volume moyen annuel ; les résultats correspondant à chaque année sont placés sur ce graphe ; on découpe ensuite l'espace à deux dimensions en zones auxquelles on affecte une note de qualité (dans ce graphe avec un code couleur) ; la répartition des points entre ces différentes zones permet de construire une appréciation globale de la qualité du modèle.

Un grand nombre d'autres méthodes sont possibles pour construire les indicateurs et critères. Certaines sont présentées dans l'exemple illustratif ci-dessous.

Exemple de validation

L'exemple traité ci-dessous correspond à l'analyse de la qualité d'un modèle destiné à représenter les volumes journaliers entrant dans une station d'épuration.

La variable d'intérêt est donc très simple à choisir puisqu'il s'agit simplement du volume journalier entrant dans la station. La figure 2 représente les valeurs de volumes mesurés et produites par le modèle sur une année.


Figure 2 : Volumes journaliers mesurés et simulés en entrée de la station d'épuration.

Analyse de l'intérêt de différents indicateurs possibles

Ce paragraphe n'a pas pour objectif de présenter tous les indicateurs possibles mais simplement de montrer les forces et les faiblesses de certains des plus utilisés.

Incertitude sur les variables d'intérêt

Sans le justifier ici, nous considérerons que l'incertitude relative sur les valeurs des volumes journaliers mesurés est constante et égale à 15%, et que celle sur les valeurs des volumes journaliers produits par le modèle est également constante et égale à 25%. L'incertitude relative sur l'écart est alors simplement égale à la somme des deux, soit $ ΔV/V $ = 40%.

Volume total annuel

La différence entre le volume total annuel mesuré et le volume total annuel produit par le modèle est dans ce cas un indicateur incontournable.

Il s'agit d'un indicateur intégrateur par excellence. Avec l'hypothèse simplificatrice d'une distribution sensiblement normale des écarts (probablement fausse ici car il est probable que l'écart dépende du volume), l'incertitude sur la somme des débits varie en fonction du nombre $ n $ de jours selon la relation :


$ \frac{\Delta (\sum{V})}{\sum{V}}=\frac{\Delta V /V}{\ln{n}} $


L'incertitude sur l'indicateur "différence des volumes annuels" est donc de l'ordre de 7%.

Le volume total annuel mesuré est de 86 203 m3 alors que le volume simulé est de 88 084 m3.

Vis à vis de cet indicateur, la simulation est donc excellente puisque l'écart relatif de 2% est très inférieur à l'incertitude.

Il est cependant possible que cette excellence cache de grosses différences qui se compensent sur l'année. Cet indicateur est donc insuffisant.

Critère de Nash-Sutcliffe calculé sur l'ensemble de la série

Cet indicateur (au sens de notre terminologie il s'agit d'un indicateur même si l'on parle du critère de Nash-Sutcliffe) permet de vérifier si le modèle représente bien la dynamique du phénomène étudié et en particulier s'il représente bien les valeurs extrêmes ; il est intéressant dans notre cas pour savoir si les volumes produits les jours pluvieux sont bien représentés. dans notre cas il se met sous la forme :


$ E_c = 1 – \frac{[ ∑(V_{m}(i) – V_c(i))²]}{[ ∑ (V_{m} (i) – S_{m})² ]} $


Avec :

  • $ V_{m} $ et $ V_c $ : Valeurs observées et calculées des volumes le ieme jour ;
  • $ S_{m} $ : moyenne arithmétique des volumes mesurés.

Les résultats sont d'autant meilleurs que la valeur est proche de 1 ; ils sont généralement jugés satisfaisants lorsqu’une valeur supérieure à 0,7 est atteinte. Là encore, la valeur égale à 0,99, montre que le modèle frise la perfection selon cet indicateur.

Cette excellence ne constitue cependant pas une preuve que le modèle soit lui-même excellent dans l'absolu. En fait, dans notre cas, elle indique seulement que le modèle est capable de discriminer correctement les jours de temps sec et les jours de pluie (ce qui constitue un minimum) et de représenter correctement l'ordre de grandeur des volumes journaliers produits par temps de pluie.

Écarts sur les valeurs extrêmes

Une autre façon de procéder, également importante si on s'intéresse au temps de pluie et particulièrement aux situations rares, consiste à comparer les plus fortes valeurs simulées et observées et ou les plus grands écarts.

Si on recherche la plus forte valeur mesurée (3 952 m3), on a alors une très mauvaise surprise. Celle-ci a été observée le 27 décembre comme le montre le tableau de la figure 3, et ce jour-ci, la simulation produit une valeur 25 fois plus faible (149 m3), correspondant à une journée de temps sec ordinaire. Le modèle semble donc totalement mis en défaut.


Figure 3 : Comparaison des volumes journaliers mesurés et simulés en entrée de la station d'épuration du 26 au 28 décembre.

Trois explications sont possibles :

  • la simulation est totalement fausse ce jour particulier ;
  • la mesure est totalement fausse ce jour particulier ;
  • il s'est passé ce jour-ci un phénomène qui n'est pas pris en compte dans le modèle utilisé pour cette simulation.

La première explication peut facilement être éliminée en constatant qu'il n'a pas plu ce jour ni le jour précédent et donc qu'aucune eau pluviale n'a été produite.

Différents phénomènes autres que la pluie peuvent provoquer des écoulements, par exemple une fonte de neige (qui n'est pas prise en compte par le modèle utilisé), la vidange d'une cuve ou d'une piscine, la rupture d'une conduite d'eau potable, etc. Est-ce pour autant, au cas où l'une de ces explications soit la bonne, que le modèle doit être remis en cause ? Il est effectivement possible de doter le modèle de fonctions complémentaires, par exemple la prise en compte des stocks de neige et de leur fonte.

Cependant il est également nécessaire de comprendre qu'aucun modèle ne sera capable de prendre en compte un événement accidentel comme la rupture d'une conduite d'eau potable par exemple. Il faut donc accepter le fait que, dans certains cas, des écarts importants existent entre les valeurs mesurées et les valeurs simulées. En revanche il est indispensable de déterminer les raisons de cet écart.

L'utilisation d’indicateurs de comparaison sur les valeurs extrêmes doit donc également être faite avec prudence et tout écart important doit faire l'objet d'une analyse détaillée.

Dans notre cas, la prise en considération ce cet indicateur montre cependant la limite des indicateurs précédents qui n'avaient pas permis de détecter une différence très importante un jour particulier.

Analyse fréquentielle

Pour éviter d'être piégé par une ou quelques valeurs extrêmes pouvant correspondre à des erreurs de mesure ou à des phénomènes parasites, il est préférable de travailler sur la comparaison des fréquences de dépassement des volume prévus et observés, ce qui correspond précisément au résultat attendu pour l'autosurveillance. Pour ceci on "oublie" les dates où les événements se sont produits et on se contente de classer les valeurs mesurées et simulées par ordre décroissant conformément à la figure 4. Ce tableau montre clairement que le cumul des volumes mesurés est largement supérieur à celui des volumes simulés pour les valeurs les plus fortes et également que cet écart se réduit progressivement.


Figure 4 : Dix plus fortes valeurs mesurées et simulées classées par ordre décroissant.


Pour évaluer la représentativité de ces écarts, le plus simple consiste à utiliser un indicateur analysant la superposition des domaines d'incertitudes des valeurs mesurées et simulées. Cet indicateur peut se représenter graphiquement (figure 5). On observe alors que les domaines d'incertitude se recouvrent, sauf pour la valeur la plus forte pour laquelle le modèle est incapable de représenter les observations.


Figure 5 : Domaines d'incertitude des plus fortes valeurs mesurées et simulées classées par ordre décroissant.

Nous retrouvons bien le résultat observé précédemment. Nous savons que, dans ce cas, la plus forte valeur mesurée correspond, soit à une erreur de mesure, soit à un phénomène accidentel non pris en compte par le modèle. Cependant cette courbe des valeurs simulées décalée vers le bas pourrait également correspondre à l'incapacité du modèle à représenter les événements les plus forts. Elle est donc plus instructive que le volume total annuel ou le critère de Nash-Sutcliffe.

Nota : L’indicateur PBias, non utilisé ici, peut également permettre d’apprécier cette incapacité (sous-estimation ou surestimation systématique).

Si nous retirons la valeur particulière correspondant à l'événement du 27 décembre que nous savons correspondre à un événement spécifique, cette approche met en revanche clairement en évidence la très bonne capacité du modèle à reproduire les valeurs extrêmes (figure 6).


Figure 6 : Comparaison des plus fortes valeurs mesurées et simulées classées par ordre décroissant après avoir enlevé la mesure particulière du 27 décembre

Méthode du double cumul

Il est possible d'améliorer encore la méthode précédente en travaillant non plus sur les valeurs elles-mêmes mais sur leurs cumuls (voir figure 7).


Figure 7 : Cumul des plus fortes valeurs mesurées et simulées classées par ordre décroissant après avoir enlevé la mesure particulière du 27 décembre

Le tracé de la courbe cumul des valeurs simulées fonction du cumul des valeurs observées fournit alors plusieurs informations sur la qualité de la simulation (voir figure 8).


Figure 8 : Cumul des plus fortes valeurs simulées fonction du cumul des valeurs mesurées.
  • Le coefficient de corrélation proche de 1 indique que la relation est linéaire.
  • Le coefficient directeur de la droite également proche de 1 indique que le volume simulé est proche du volume mesuré quel que soit l'importance de l'événement (du moins, dans l'exemple, pour les 10 événements les plus forts).

Il est possible d'étudier le double cumul sur des plages beaucoup plus étendues, et même sur la totalité des valeurs (dans ce cas on retrouve également le critère de volume total annuel). Il est également possible d'effectuer le double cumul sur des valeurs classées de façon différente. Par exemple un classement par date croissante pourrait permettre de mettre en évidence, par des ruptures de pente dans la courbe, une sous-estimation systématique des valeurs mesurées à certaines périodes de l'année et/ou une surestimation pendant d'autres périodes, etc.

Conclusions sur le choix des indicateurs et critère de décision utilisable pour conclure

Cet exemple montre que, même dans un cas simple, un seul indicateur est incapable de fournir un critère de jugement clair sur la qualité du modèle. Il montre également qu'il est préférable de choisir progressivement les indicateurs au fur et à mesure que l'on progresse dans l'évaluation de la qualité du modèle. Il ne s'agit pas dans ce cas d'un manque d'objectivité visant à rechercher les critères de décision qui conviennent mais au contraire d'éviter les biais sur l'évaluation qui, du fait de la complexité des phénomènes, peuvent conduire à des conclusions hâtives et infondées. Formulée autrement la validation d'un modèle ne doit pas être considérée comme un processus de jugement conduisant à une décision tranchée, mais comme un moyen de mieux comprendre les limites de la modélisation ainsi que celles de la métrologie de façon à les faire progresser (Moriasi et al., 2015).

Dans ce cas particulier on pourrait par exemple conclure de la façon suivante :

Le modèle répond parfaitement aux objectifs de départ car il est capable de représenter correctement (c'est à dire avec une marge d'erreur inférieure aux incertitudes) les trois composantes principales du phénomène étudié :

  • le volume annuel arrivant à la station ;
  • la fréquence de dépassement des volumes journaliers arrivant à la station ;
  • les valeurs annuelles les plus fortes.

Enfin, le cas présenté correspond à un modèle parfaitement calé par rapport aux mesures, beaucoup mieux que ce que l'on est, le plus souvent, capables de faire. Mais ceci ne garantit pas qu'il représente parfaitement la réalité : les résultats mesurés et simulés peuvent être faux tous les deux de la même façon ! Il est donc toujours nécessaire de rester vigilants et de diversifier les modes de contrôle et de validation (mesures en différents points, par différents dispositifs métrologiques, etc.).

Bibliographie :

  • ASCE (1993) : Criteria for evaluation of watershed models ; J. Irrig. Drain. Eng., 119(3), 429-442 ; http://dx.doi.org/10.1061/(ASCE)0733-9437(1993)119:3(429).
  • Bonneau, J., Lipeme Kouyi, G, Lassabatere, L, Fletcher, T. (2021) : Field validation of a physically-based model for bioretention systems ; Journal of Cleaner; Production 312 (2021) 127636.
  • Moriasi, D. N., Gitau, M. W., Pai, N., Daggupati, P. (2015) : Hydrologic ans water quality models : performance measures ans evaluation criteria ; Transactions of the ASABE ; Vol. 58(6): 1763-1785.
  • Yang, X., Parent, E. (1996) : Analyse de fiabilité en modélisation hydrologique: Concepts et applications au modèle pluies-débits GR3 ; Revue des sciences de l'eau / Journal of Water Science, 9(1), 31–49. https://doi.org/10.7202/705241ar.

Voir aussi : Calage d’un modèle.

Outils personnels