Machine learning accurately identify free-living marine nematodes species

Imagem de Miniatura
Data
2022-12-16
Autores
Brito de Jesus, Simone [UNIFESP]
Orientadores
Gallucci, Fabiane [UNIFESP]
Tipo
Dissertação de mestrado
Título da Revista
ISSN da Revista
Título de Volume
Resumo
A taxonomia é a base da maioria dos estudos de biodiversidade. No entanto, a identificação de espécies ainda é um desafio, especialmente para pequenos metazoários. Este estudo tem como objetivo analisar o desempenho de algoritmos de aprendizado de máquina na identificação de espécies de Nematoda marinhos de vida livre. Foram consideradas 46 espécies pertencentes ao gênero Acantholaimus e 58 espécies pertencentes do gênero Sabatieria. Para ambos os gêneros, foram considerados caracteres morfométricos e de presença/ausência. A abordagem atual comparou o resultado dos algoritmos K-nearest neighbor (KNN), Support Vector Machine (SVM), Random Forest (RF) e Gradient Boosting (GB). Para ambos os gêneros, RF foi o mais preciso em classificar os espécimes nas espécies corretas (94%), enquanto KNN apresentou o pior desempenho (17%). Após o conjunto o RF e SVM, a acurácia aumentou para 99,7% para Sabatieria e 100% para Acantholaimus. Esses resultados mostraram que, na presença de uma tabela morfométrica, a identificação de Nematoda marinhos de vida livre pode ser totalmente automatizada, otimizando a biodiversidade e os estudos ecológicos, bem como tornando a identificação de espécies mais acessível para não taxonomistas.
Taxonomy is the basis of most biodiversity studies. Yet, species identification is still a challenge, especially for small metazoans. This study aims to analyze the performance of machine learning algorithms in the identification of free-living marine nematodes species. A total of 40 species belonging to the nematode genus Acantholaimus and 58 belonging to the genus Sabatieria were considered. For both genera, morphometric and presence/absence characters were considered. The current approach compared the outcome of K-nearest neighbor (KNN), Support Vector Machine (SVM), Random Forest (RF), and Gradient Boosting (GB) algorithms. For both genera, RF was the most accurate in classifying the specimens into the correct species (94%), while K showed the worst performance (17%). After the ensemble of RF and SVM, the accuracy raised to 99.7% for Sabatieria and 100% for Acantholaimus. These results showed that, in the presence of a morphometric table, the identification of marine nematodes could be fully automatized optimizing biodiversity and ecological studies as well as turning species identification more accessible for non-taxonomists.
Descrição
Citação
BRITO DE JESUS, Simone. Machine learning accurately identify free-living marine nematodes species. 2022. 52 f. Dissertação (Mestrado em Biodiversidade Marinha e Costeira) - Instituto do Mar, Universidade Federal de São Paulo, Santos, 2022.