Machine learning accurately identify free-living marine nematodes species

View/ Open
Date
2022-12-16Author
Brito de Jesus, Simone [UNIFESP]
Advisor
Gallucci, Fabiane [UNIFESP]Type
Dissertação de mestradoMetadata
Show full item recordAbstract
A taxonomia é a base da maioria dos estudos de biodiversidade. No entanto, a identificação de espécies ainda é um desafio, especialmente para pequenos metazoários. Este estudo tem como objetivo analisar o desempenho de algoritmos de aprendizado de máquina na identificação de espécies de Nematoda marinhos de vida livre. Foram consideradas 46 espécies pertencentes ao gênero Acantholaimus e 58 espécies pertencentes do gênero Sabatieria. Para ambos os gêneros, foram considerados caracteres morfométricos e de presença/ausência. A abordagem atual comparou o resultado dos algoritmos K-nearest neighbor (KNN), Support Vector Machine (SVM), Random Forest (RF) e Gradient Boosting (GB). Para ambos os gêneros, RF foi o mais preciso em classificar os espécimes nas espécies corretas (94%), enquanto KNN apresentou o pior desempenho (17%). Após o conjunto o RF e SVM, a acurácia aumentou para 99,7% para Sabatieria e 100% para Acantholaimus. Esses resultados mostraram que, na presença de uma tabela morfométrica, a identificação de Nematoda marinhos de vida livre pode ser totalmente automatizada, otimizando a biodiversidade e os estudos ecológicos, bem como tornando a identificação de espécies mais acessível para não taxonomistas. Taxonomy is the basis of most biodiversity studies. Yet, species identification is still a challenge, especially for small metazoans. This study aims to analyze the performance of machine learning algorithms in the identification of free-living marine nematodes species. A total of 40 species belonging to the nematode genus Acantholaimus and 58 belonging to the genus Sabatieria were considered. For both genera, morphometric and presence/absence characters were considered. The current approach compared the outcome of K-nearest neighbor (KNN), Support Vector Machine (SVM), Random Forest (RF), and Gradient Boosting (GB) algorithms. For both genera, RF was the most accurate in classifying the specimens into the correct species (94%), while K showed the worst performance (17%). After the ensemble of RF and SVM, the accuracy raised to 99.7% for Sabatieria and 100% for Acantholaimus. These results showed that, in the presence of a morphometric table, the identification of marine nematodes could be fully automatized optimizing biodiversity and ecological studies as well as turning species identification more accessible for non-taxonomists.
Citation
BRITO DE JESUS, Simone. Machine learning accurately identify free-living marine nematodes species. 2022. 52 f. Dissertação (Mestrado em Biodiversidade Marinha e Costeira) - Instituto do Mar, Universidade Federal de São Paulo, Santos, 2022.Keywords
Machine learningIdentificação de espécies
Nematoda
Acantholaimus
Sabatieria
Machine learning
Species identification
Nematoda
Acantholaimus
Sabatieria