Protocole sur les outils de reconnaissance optimisés Manche Atlantique. Action 9 - FlowCam ZooPhytoImage. Livrable n° 2. Rapport final

L'outil FlowCAM/ZooPhytoImage est constitué du dispositif FlowCAM destiné à numériser les images de particules phytoplanctoniques, et du logiciel ZooPhytoImage qui permet d'identifier automatiquement et de dénombrer le phytoplancton à partir de ces images. Ce dernier est un logiciel d’analyse d’images et de classification automatique, basé sur le principe du "machine learning". Il permet de réaliser les différentes étapes du processus qui conduit à la classification automatisée, ou semi-automatisée, d’un ensemble d’objets, à partir d’un jeu d’images donné, en utilisant des algorithmes d'apprentissage supervisée. Pour cela, il est nécessaire de réaliser un set d’apprentissage constitué d’images issues du FlowCAM et représentatives des particules rencontrées dans les échantillons à analyser ultérieurement, et de réaliser un outil de reconnaissance automatique, ou semi-automatique, du phytoplancton en utilisant le set d’apprentissage précédemment créé pour "entraîner" un algorithme de classification supervisée à reconnaître la nature des particules sur la base des mesures obtenues sur les images numériques. Dans notre étude, deux sets d'apprentissage ont été constitués à partir d'images acquises au FlowCAM grâce à l'utilisation de l'assemblage 4X/300μm : un set à partir d'échantillons vivants (nommé "REPHY_alive_4X") et un set à partir d'échantillons fixés au Lugol acide (nommé "REPHY_lugol_4X"), contenant tous deux, 36 groupes (plancton + débris). En effet, bien que la résolution des images soit fortement réduite, cet assemblage permet de numériser les échantillons beaucoup plus rapidement (grâce à la cellule de flux correspondante qui est plus épaisse). Ceci présente trois avantages : constitution plus rapide des catégories du set d’apprentissage, détection plus rapide de taxons rares, et numérisation d’un plus grand volume d’échantillon offrant une meilleure précision de comptage (meilleure estimation de l’abondance pour chaque groupe). Les performances des outils de reconnaissance générés à partir des deux sets d'apprentissage par validation croisée montrent que l'algorithme Random Forest est sans nul doute le meilleur des algorithmes envisagés car il fournit des scores de reconnaissance globaux très encourageants après optimisation (83.76% pour le set "REPHY_alive_4X" et 79.66% pour le set "REPHY_lugol_4X"). Cependant, les méthodes à vecteurs supports et l'analyse discriminante linéaire peuvent également être envisagées comme algorithme de reconnaissance dans le cadre du REPHY en raison de leurs performances élevées. Ainsi, ces méthodes permettent de discriminer 29 (pour le set "REPHY_alive_4X") et 25 (pour le set "REPHY_lugol_4X") groupes phytoplanctoniques à un niveau taxinomique le plus précis possible. Toutefois, il est important de noter que les sets d'apprentissage utilisés ici contenaient peu de vignettes pour certains groupes. C'est pourquoi, pour chaque set d'apprentissage, entre 5 et 10 groupes ont été momentanément écartés de l'analyse par manque de vignettes. Cependant, la numérisation de nouveaux échantillons devrait fournir les vignettes nécessaires pour compléter ces groupes minoritaires, et ainsi permettre d'inclure ces groupes aux sets d'apprentissage et d'envisager leur reconnaissance automatique ou semi-automatique par de nouveaux outils de reconnaissance. De plus, les groupes déjà inclus dans les sets d'apprentissage devraient être complétés afin d’obtenir de 100 à 200 objets dans chaque groupe, idéalement. Cependant, les cellules agencées en colonie ne sont pas encore identifiées individuellement par le logiciel. Une colonie est donc considérée comme un objet unique. De ce fait, il n’est pas possible de comparer les comptages cellulaires réalisés pour le REPHY avec les comptages automatiques. Les mesures d'abondance en termes de cellules représentant une information capitale, des travaux sont donc nécessaires afin de pouvoir dénombrer de manière automatique ou semi-automatique, les cellules d'une colonie. Le système couplé FlowCAM / ZooPhytoImage devient un outil véritablement opérationnel en 2014. Totalement adapté aux observations du phytoplancton réalisées dans le cadre du réseau d’observation REPHY, il permettra de mieux répondre aux sollicitations présentes et futures concernant l'évaluation de la qualité des eaux littorales et marines dans le cadre des exigences européennes, telles que la DCE et la DCSMM. Un des bénéfices immédiats sera par exemple pour l’acquisition des données nécessaires au calcul de l’indice abondance composant l’indicateur phytoplancton pour la DCE en Manche- Atlantique, indice qui est basé sur la proportion de taxons du micro-phytoplancton présents en quantité importante dans un échantillon.

Mot-clé(s)

Reconnaissance automatique, set d'apprentissage, classification supervisée, validation croisée, optimisation d'outils.

The FlowCAM/ZooPhytoImage tool is composed of FlowCAM device for digitizing the images of phytoplanktonic particles and ZooPhytoImage software that can automatically identify and count phytoplankton from these images. The latter is a software for image processing and automatic classification, based on the principle of "machine learning". It allows to realize the different steps of the process that leads to the automatic or semi-automatic classification of a set of objects from a given set of images, using supervised learning algorithms. For this, it is necessary to perform a training set composed of images from FlowCAM, representative of particles encountered in the samples to be analyzed later and make an automatic or semiautomatic recognition tool using the training set previously created to "train" a supervised classification algorithm to recognize the nature of the particles based on measurements obtained on digital images. In our study, two training sets were created from images acquired through the FlowCAM with the 4X/300μm assembly: a set from live samples (named "REPHY_alive_4X") and a set from samples fixed with acid Lugol's solution (named "REPHY_lugol_4X"), both containing 36 groups (plankton + detritic particles). Indeed, although the resolution of the images is significantly reduced, this assembly can digitize samples more quickly (thanks to the corresponding flow cell which is thicker). This has three advantages: faster constitution of categories of the training set, faster detection of rare taxa, and digitization of a larger sample volume providing a better counting accuracy (better estimation of abundance for each group). The performances of recognition tools generated from the two training sets by cross validation show that the Random Forest algorithm is undoubtedly the best algorithm proposed because it provides global recognition scores very encouraging after optimization (83.76 % for the set "REPHY_alive_4X" and 79.66% for the set "REPHY_lugol_4X"). However, the support vector machines and the linear discriminant analysis can also be considered as recognition algorithm within the REPHY network because of their high performances. Thus, these methods allow to discriminate 29 (for the set "REPHY_alive_4X") and 25 (for the set "REPHY_lugol_4X") phytoplankton groups with the most accurate taxonomic level. It is important to note that the training sets used here contained few thumbnails for some groups. It is why, for each training set, from 5 to 10 groups were temporarily excluded from the analysis due to lack of thumbnails. However, the digitization of new samples should provide required thumbnails to complete these minority groups, allow to include these groups into the training sets and consider their automatic or semi-automatic recognition by new recognition tools. Moreover, the groups already included in the training sets should be completed to obtain 100 to 200 objects in each group, ideally. However, the cells arranged in colony are not individually identified by the software. A colony is considered as a single object. Therefore, it is not possible to compare the cell counts performed within the REPHY network, with the automatic counts. Abundance measures in terms of cells representing an essential information, works are necessary in order to count automatically or semi-automatically, the cells in a colony. The FlowCAM / ZooPhytoImage is becoming an operational tool in 2014. Completely adapted to the phytoplankton observations performed in the context of the French monitoring network REPHY, it will allow answering more accurately to the questions of WFD and MSFD concerning the evaluation of marine water quality. For instance, the first benefit will be for the acquisition of data necessary to the calculation of abundance index, part of the phytoplankton index for WFD in Channel and Atlantic water bodies : as a matter of fact, this index is based on the proportion of micro-phytoplankton taxa which are very abundant in a water sample.

Keyword(s)

Automatic recognition, training set, supervised classification, cross validation, optimization of tools.

Texte intégral

FichierPagesTailleAccès
Version officielle éditeur
2397 Mo
Comment citer
Wacquet Guillaume, Lefebvre Alain (2014). Protocole sur les outils de reconnaissance optimisés Manche Atlantique. Action 9 - FlowCam ZooPhytoImage. Livrable n° 2. Rapport final. Ifremer. https://archimer.ifremer.fr/doc/00363/47437/

Copier ce texte