FN Archimer Export Format PT Rapport TI Optimisation de l’identification et du dénombrement du microphytoplancton avec le système couplé de numérisation et d’analyse d’images FlowCAM / ZooPhytoImage (système innovant). Action 9 – Livrable 2. Mise en oeuvre opérationnelle de l’outil FlowCAM-Zoo/PhytoImage dans le cadre de la surveillance REPHY. Résultats sur 12- 18 mois. Rapport final, février 2016 OT Operational implementation of FlowCAM‐Zoo / PhytoImage tool in the framework of the REPHY surveillance BT AF NEAUD-MASSON, Nadine LEFEBVRE, Alain BELIN, Catherine GAUTHIER, Emilie HUGUET, Antoine SZIDON, Antoine LEFEBVRE, Arnaud CUVELLIEZ, Rémi AS 1:1;2:1;3:1;4:1;5:1;6:2;7:2;8:1; FF 1:PDG-ODE-VIGIES;2:PDG-ODE-LITTORAL-LERBL;3:PDG-ODE-VIGIES;4:PDG-ODE-VIGIES;5:PDG-ODE-VIGIES;6:;7:;8:; C2 IFREMER, FRANCE UMANIS, FRANCE SI NANTES BOULOGNE SE PDG-ODE-VIGIES PDG-ODE-LITTORAL-LERBL UR https://archimer.ifremer.fr/doc/00363/47413/47409.pdf LA French DT Report CR IPARO BO Côtes De La Manche DE ;Phytoplancton;FlowCAM;Zoo/PhytoImage;numérisation;analyse d’images;set d’apprentissage;outil de reconnaissance;architecture de données;bancarisation;Quadrige;Phytoplankton;FlowCAM;Zoo/PhytoImage;scanning;image analysis;training set;recognition tool;data architecture;banking;Quadrige AB Ce livrable comprend plusieurs documents qui rendent compte de la mise en oeuvre opérationnelle de l’outil FlowCAM / ZooPhytoImage dans le cadre de la surveillance REPHY. Parmi ces documents, trois rapports font un bilan sur l’année 2015 entière, ce qui n’est pas le cas des autres documents (rapport de Master 2 rendu au printemps 2015, et compte‐rendus de réunions réparties sur l’année). Le présent résumé se bornera aux conclusions des trois rapports donnant une vision actualisée de cette mise en oeuvre de l’outil. Travaux réalisés en 2015 pour la mise en oeuvre opérationnelle pour le REPHY. Les nombreuses numérisations réalisées en 2015 avec les trois FlowCAM présents à Ifremer (Boulogne‐sur‐Mer, Nantes et Arcachon) ont permis, d'une part d'alimenter les sets d'apprentissage de l'outil couplé FlowCAM‐Zoo/PhytoImage, d'autre part de tester son utilisation en routine. Le temps nécessaire pour la numérisation de tous les échantillons d'eau collectés dans le cadre du Rephy Observation (37 points échantillonnés toutes les quinzaines) a été évalué à 4,9 mois, il reste à chiffrer le temps de traitement des numérisations avec le logiciel Zoo/PhytoImage. Le travail de particularisation du set global vers des sets spécifiques par façades maritimes distinctes Manche et Atlantique a été poursuivi en 2015 afin d'améliorer l'outil de reconnaissance. Le set d'apprentissage optimisé pour l'Atlantique comprend désormais 7 388 images réparties dans 62 groupes avec un taux d'erreur globale de 26,3 %. Des perfectionnements sont encore possibles : en effet, les outils d'évaluation des performances de reconnaissance proposés par le logiciel Zoo/PhytoImage permettent d'identifier les actions à mener pour parfaire l'optimisation d'un set. L'exploitation de ces résultats d'analyses de performances a été utilisée plus particulièrement pour contrôler le groupe des Dinophysis : dans ce set optimisé pour l'Atlantique, ce groupe présente un taux d'erreur de 15,5 % et obtient 80 % de vrais positifs, ce qui est très prometteur et peut encore être amélioré. Une comparaison des résultats des abondances de Dinophysis obtenus au microscope et par l'outil optimisé a également été menée. Les résultats de l'échantillon testé montrent que les abondances obtenues avec l'outil FC/ZI sont sous estimées. Toutefois le test non paramétrique de Wilcoxon ne permet pas de mettre en évidence une différence significative de dénombrement de Dinophysis entre les deux méthodes lorsque l'on poursuit les corrections d'erreur jusqu'à validation manuelle de toutes les particules erronées jusqu'à environ 5 %. La livraison de la dernière version du logiciel Zoo/PhytoImage v5.4 fin 2015, conduit désormais à disposer d'un outil de reconnaissance opérationnel pour l'analyse en routine des échantillons collectés sur la façade Atlantique dans le cadre du REPHY. Un catalogue illustré des images d’un set d'apprentissage, destiné aux utilisateurs de Zoo/PhytoImage, présente un échantillon d'images de chaque classe qui constitue le set d’apprentissage Manche‐Atlantique 4X, et aussi les classes dont les abondances sont insuffisantes pour être intégrés au set et pour lesquelles la collecte de nouvelles images est attendue. Perspectives et conclusions d’une étude sur la bancarisation des données provenant de ZooPhytoImage. Le traitement des images de phytoplancton via le logiciel ZooPhytoImage, produit de très nombreuses données (identification, abondance, biovolume, et autres métriques), sur les particules contenues dans les échantillons. Une prestation d’expertise a été menée pour proposer une architecture technique de l’ensemble de la chaîne d’acquisition et définir des spécifications d’intégration des données dans la base Quadrige. En termes d’architecture, un disque réseau partagé est actuellement alloué à ces données : l’étude a montré la pertinence de cette architecture pour les besoins actuels. Toutefois, l’espace de stockage actuel sera rapidement insuffisant. Le projet d’équipement mutualisé de calcul (supercalculateur) et de gestion de données de gros volume nommé DATARMOR, en cours de spécification au sein de l’Ifremer, a été définie comme la cible visée pour la sauvegarde des données FlowCAM et ZooPhytoImage à l’horizon de quelques années. En termes de bancarisation dans Quadrige, il a été décidé de ne bancariser que des informations calculées à l’échelle du taxon, et non pas à l’échelle de la particule. Ainsi, les informations relatives aux particules n’appartenant pas aux taxons phytoplanctoniques, ne seront pas bancarisées dans Quadrige, mais resteront stockées dans le serveur, pour d’éventuelles futures utilisations ou re‐jeux. De même pour des métriques n’offrant pas un intérêt immédiat sur les particules phytoplanctoniques : la liste précise des métriques utiles reste à définir, et les paramètres statistiques à bancariser doivent encore être validés (a minima médiane et valeurs minimale et maximale, pour chaque métrique décrivant l’ensemble des particules associées à un même taxon). Pratiquement, les fichiers de résultats produits par ZooPhytoImage (.RData) seront transformés par un script R en fichiers .csv, puis, via un job Talend, en fichiers Quadrilabo, directement intégrables dans Quadrige. Le référentiel Quadrige doit être complété pour intégrer les paramètres correspondant aux nouvelles métriques à intégrer, les méthodes d’analyse, etc. Tout ceci alimentera le cahier des charges Quadrige3. AB This deliverable includes several documents that reflect the operational implementation of the tool FlowCAM / ZooPhytoImage in the framework of REPHY. Among these documents, three reports make an assessment of the entire year 2015, which is not the case with other documents (Master 2 report issued in spring 2015, and minutes of meetings over the year). This summary will be limited to the findings of the three reports providing an updated view of the implementation of the tool. Work completed in 2015 for the operational implementation. The many scans performed in 2015 with the three FlowCAM present at Ifremer (Boulogne‐sur‐Mer, Arcachon and Nantes) allowed, one hand to feed the training sets of the tool FlowCAMZoo/PhytoImage, the other test its routine use. The time required for scanning all water samples collected in the Rephy Observation (37 points sampled every two weeks) was evaluated at 4.9 months, it remains to evaluate the processing time for scans with the software Zoo / PhytoImage. Specific training sets for distinct coastlines Channel and the Atlantic were performed in 2015 to improve recognition tool. The training set optimized for the Atlantic now includes 7388 pictures in 62 groups with an overall error rate of 26.3%. Improvements are still possible: indeed, recognition performance assessment tools offered by the Zoo/PhytoImage software can identify actions to improve the optimization of a set. The exploitation of results of performance analysis has been particularly used to control the Dinophysis group: in this set optimized for the Atlantic, this group has a 15.5% error rate and gets 80% of true positives, which is very promising and could be further improved. A comparison of Dinophysis abundances results obtained with the microscope and with the optimized tool was also conducted. The results of the test sample shows that the abundances obtained with the tool are underestimated. However, the nonparametric Wilcoxon test does not demonstrate a significant difference in count Dinophysis between the two methods, when pursuing the error corrections to manual validation of all the erroneous particles up to about 5 %. Delivery of the latest version of Zoo/PhytoImage v5.4, late 2015, now led to have an operational reconnaissance tool for routine analysis of samples collected on the Atlantic coast in the framework of REPHY. An illustrated catalog of images of a training set, for users of Zoo/PhytoImage, presents a sample of images of each class representing the training set Channel‐Atlantic 4X, and also the classes whose abundances insufficient to be integrated into the set, for which the collection of new images is expected. Outlook and conclusions of a study on the banking data from Zoo/PhytoImage. The treatment of phytoplankton images via Zoo/PhytoImage software, products extensive data (identification, abundance, biovolume, and other metrics) on the particles of the samples. An expertise study was conducted to propose a technical architecture of the entire acquisition chain, and to define data integration requirements in Quadrige database. In terms of architecture, a shared network drive is currently allocated to these data: the study showed the relevance of this architecture for current needs. However, the current storage will be soon insufficient. The shared computing equipment project (supercomputer) and large volume data management appointed DATARMOR, being specified within Ifremer, was defined as the target for backup data horizon of a few years. In terms of banking in Quadrige, it was decided to only bank information on the scale of phytoplancton taxa, not on the scale of the particle. Thus, the information on particles not belonging to the phytoplankton taxa will not be banked in Quadrige but remain stored in the server for possible future use or re‐sets. It will be the same for metrics not offering immediate interest on phytoplankton particles: the precise list of useful metric to be defined, and statistical parameters to open bank accounts still need to be validated (at least median and minimum and maximum values, for each metric describing the set of particles associated with the same taxon). Practically, the results files produced by Zoo/PhytoImage (.RData) will be processed by an R script in .csv files, and then, via a Talend job, in Quadrilabo files directly integrated into Quadrige. The Quadrige repository must be completed to integrate the parameters corresponding to the new metrics, the methods of analysis, etc. All this will feed into the Quadrige3 specifications. PY 2016 ID 47413 ER EF