Copier ce texte
Optimisation de l’identification et du dénombrement du microphytoplancton avec le système couplé de numérisation et d’analyse d’images FlowCAM – Zoo/PhytoImage (système innovant)
Ce livrable détaille les travaux réalisés pour l'évolution du logiciel Zoo/PhytoImage afin d'en optimiser l'usage dans le cadre de l'étude d'échantillons de phytoplancton de manière générale, et dans le cadre de son utilisation opérationnelle pour le monitoring des eaux côtières tel que réalisé par le REPHY à l'Ifremer en particulier. Zoo/Phytoimage permet d'analyser des échantillons de plancton fixés numériquement, c'est‐à‐dire, sur base d'images obtenues à l'aide d'un appareil spécialisé comme le FlowCAM ou le FastCAM (voir livrable n°3). La classification supervisée (machine learning) permet de classer de manière automatique les particules imagées dans les différents groupes taxonomiques, et d'en dériver ensuite des statistiques sur l'échantillon tout entier : dénombrement, biomasse et spectre de tailles par groupe taxonomique. Deux changements majeurs ont été introduits en 2015 dans les calculs réalisés par Zoo/PhytoImage :
- le dénombrement des cellules par colonies qui permet d'exprimer les données par cellules, là où les résultats étaient limités aux colonies dans les versions antérieures,
- l'apprentissage actif qui permet un travail optimisé lors de la validation de la classification effectuée par l'ordinateur. En effet, au cours de la validation des résultats, le logiciel va apprendre à corriger l'erreur au fur et à mesure que le taxonomiste effectue manuellement ce travail de correction. Le logiciel va donc accompagner de manière dynamique l'utilisateur dans son travail de vérification et de correction. Il en résulte une diminution importante dans la quantité de données qui doit être vérifiée par l'utilisateur pour atteindre un objectif donné (par exemple, moins de 5 % d'erreur résiduelle dans chaque groupe taxonomique).
Une optimisation de la procédure de validation a également été développée. La validation des échantillons fait maintenant intervenir des outils statistiques poussés, puisque : (i) la sélection des particules que l'utilisateur vérifie est déterminée d'une manière probabiliste (détection des suspects), (ii) un second classifier est utilisé pour seconder l'utilisateur dans la validation (apprentissage actif), (iii) enfin, un algorithme de correction statistique de l'erreur est implémenté sur les résultats finaux. L'ensemble permet de réduire le travail de validation. Cela signifie que le taxonomiste peut arrêter plus tôt de visualiser et corriger manuellement l'attribution des groupes taxonomiques aux particules suspectes. Un tableau de bord présente de manière claire et graphique l'avancement du travail de validation et anticipe le nombre d'étapes nécessaire pour atteindre un objectif donné (par exemple, moins de 5 % d'erreur dans tous les groupes taxinomiques). Toutes ces mesures contribuent à la fois au confort et l'efficacité de la validation. Le livrable est composé de trois rapports complémentaires :
- Les deux premiers (rapports d’avancement mars et juin 2015, respectivement pages 10 à 69 et 70 à 88 du document pdf) détaillent la progression dans le dénombrement des cellules par colonies et dans l'implémentation de l'apprentissage actif. Le premier des deux explore des pistes, et le second concrétise les solutions retenues et les teste sur des échantillons plus larges issus du REPHY.
- Le troisième rapport est une version du manuel utilisateur de Zoo/PhytoImage en français (pages 89 à 120 du document pdf) qui se focalise sur l'analyse de données de type FlowCAM (et FastCAM) en y incluant les deux nouvelles fonctionnalités décrites ci‐dessus. Bien entendu, associé à ce manuel, le code est disponible et matérialise le travail réalisé sous forme d'une nouvelle version 5.4.0 de Zoo/PhytoImage. Une version 6.0 sera rendue publique à la fin de la phase de beta‐test : elle sera très proche de la version 5.4.0 décrite ici.
Mot-clé(s)
Phytoplancton, REPHY, analyse d'image, classification supervisée, dénombrement de cellules, apprentissage actif, Manche, Atlantique.
This report details the work accomplished to enhance the Zoo/PhytoImage software to optimize its use for the analysis of phytoplankton samples in general, but more particularly, in the framework of an operational survey of coastal seawater (REPHY, IFREMER). Zoo/PhytoImage allows to analyze “numerically recorded” plankton samples, that is, by using digital images gathered with specialized devices such as the FlowCAM, or the FastCAM (see report 3). A machine learning approach allows to automatically classify the digitized particles into various taxonomic groups. Once this is done, global statistics are calculated on each sample, including the number of particles, the biomass, and the size spectrum per taxonomic group. Two major changes are introduced in the calculations done by Zoo/PhytoImage:
- the enumeration of the cells per colonies allows to express results per cell, where previous versions of the software only expressed results per colonies,
- an active learning algorithm is implemented in order to optimize the validation step (manual correction of the residual error after automatic classification of the particles by the computer). This way, the software will learn how to perform that correction based on the validations done so far by the taxonomist. Consequently, the computer now assists dynamically the user in the verification and correction procedure. The number of items that the user has to manually check is thus greatly reduced in order to reach a given goal (say, less than 5% of residual error in each taxonomic group).
The report is made of three complementary parts:
- the first two sections (advance reports on March and June 2015) detail the progression in the cells per colonies enumeration and in the implementation of active learning. The former section explores ideas, whereas the latter one finalizes the best solutions and tests them on actual samples from the REPHY.
- the third section is a new French version of the Zoo/PhytoImage user manual that focuses on the analysis of plankton images from the FlowCAM (and the FastCAM), including the new functionalities. Of course, this user manual comes with the code of the new version 5.4.0 of Zoo/PhytoImage that fully implements these new features. A version 6.0 will be made public shorty, at the end of the beta test period: it will be very close to the version 5.4.0 described in the present report.
An optimization of the validation procedure was also developped. The validation of samples is now performed with complex statistic tools : (i) the selection of particles which will be checked by the technician is determined in a probabilist way (detection of suspects), (ii) a second classification is used to assist the user in validation (active learning), (iii) finally, a statistical correction algorithm of error is implemented on the results. This reduces the validation work. This means that the taxonomist may stop earlier and manually correct the allocation of taxonomic groups to suspicious particles. The progress of the validation work is clearly presented and the number of steps necessary to achieve a given objective (eg, less than 5% error in all taxonomic groups) is anticipated. All these measures contribute to both comfort and efficiency of validation.
Keyword(s)
Phytoplankton, REPHY, image analysis, Machine learning, cells enumeration, active learning, The Channel, Atlantic Ocean
Texte intégral
Fichier | Pages | Taille | Accès | |
---|---|---|---|---|
Version officielle éditeur | 120 | 5 Mo |