Copier ce texte
Qualification des données Quadrige². Bilan du processus de qualification automatique et experte
Les données du Système d'Information Quadrige suivent un cycle de vie qui inclue les phases de contrôle, de validation, puis de qualification. Cette dernière étape, qui correspond à l'attribution d'une pertinence scientifique de la donnée (Bonne, Douteuse, ou Fausse), peut être réalisée selon plusieurs processus : qualification ponctuelle d'un jeu de données, qualification lors de la reprise d'historiques, ou qualification en routine.
En 2017, après plusieurs années de qualification des données, un état des lieux est dressé : les thématiques qui font l'objet d'une qualification sont l'hydrologie, les contaminants chimiques, la microbiologie et le zooplancton. Les règles de qualification sont définies pour chaque thématique, des règles de contrôle appliquées lors de la saisie aux règles définies pour qualifier les données via un processus automatisé.
L'avancement de cette qualification en terme de volumétrie de données est également présenté : il est très variable selon les années et les thématiques : le taux de qualification dépasse les 40% des données de Quadrige pour les données antérieures à 1990, mais devient faible sur les données récentes, notamment en raison de l'augmentation croissante du volume annuel de données intégrées dans la base. Sur les données déjà qualifiées, la pourcentage de douteuses et fausses ne dépasse pas les 5% si on considère uniquement les causes liées aux processus analytique. Le manque de métadonnées est la principale cause de qualification à douteux.
Le processus de qualification dite "automatique", basé sur l'exécution de scripts R de recherche d'anomalies dans des extractions des données de Quadrige, n'a pas tourné depuis 2013 faut de ressources disponibles. Il est cependant fonctionnel et sera relancé fin 2017 sur les thématiques Hydrologie et Chimie.
The Quadrige Information System datas follow a life cycle that includes the control, validation and qualification phases. This last step, which corresponds to the attribution of a scientific relevance of the data (Good, Doubtful, or False), can be carried out according to several processes: punctual qualification of a short dataset, qualification of large datasets when historical datas are imported in the database, or qualification in routine.
In 2017, after several years of data qualification, an inventory is drawn up: the topics that are qualified are hydrology, chemical contaminants, microbiology and zooplankton. Qualification rules are defined for each topic. That includes control rules applied during data entry to rules defined to qualify data via an automated process.
The progress of this qualification in terms of data volume is also presented : it is highly variable according to years and topics : the qualification rate exceeds 40% of Quadrige data for data older than 1990, but becomes low on recent data, in particular because of the increasing annual volume of data integrated into the database. On the already qualified data, the percentage of doubtful and false does not exceed 5% if we consider only the causes related to analytical processes. The lack of metadata is the main cause of "doubtful" qualification.
The so-called "automatic" qualification process, based on the execution of R scripts to search for anomalies in Quadrige data extractions, has not been executed since 2013 because the lack of available resources. It is however functional and will be relaunched at the end of 2017 on the Hydrology and Chemistry topics.
Texte intégral
Fichier | Pages | Taille | Accès | |
---|---|---|---|---|
Version officielle éditeur | 50 | 1 Mo |