Implementação e avaliação de performance de modelos de redes neurais convolucionais na classificação de imagens patológicas de displasia epitelial oral

Silva, Viviane Mariano da [UNIFESP]

Implementação e avaliação de performance de modelos de redes neurais convolucionais na classificação de imagens patológicas de displasia epitelial oral

Arquivos

Dissertação_Viviane_Mariano_2024.pdf(1.76 MB)

Data

2024-02-06

Autores

Silva, Viviane Mariano da

Orientadores

Mores, Matheus Cardoso

Tipo

Dissertação de mestrado

Resumo

A displasia epitelial oral é o principal indicativo de progressão de malignização, precedendo o carcinoma espinocelular que é o mais comum dentre os tipos de câncer oral. A gradação de displasia epitelial oral apresenta elevado grau de discordância entre patologistas, sendo essa complexidade usada como motivação para o desenvolvimento de métodos de aprendizado de máquina. Algoritmos de aprendizado de máquina voltados a segmentação e classificação vem sendo desenvolvidos utilizando como base a gradação da displasia em três níveis. Entretanto, é recomendado que o sistema binário seja utilizado para gradação de displasia bem como a evolução de algoritmos de redes neurais convolucionais permite que novas arquiteturas sejam utilizadas. Assim, propomos este estudo com implementação e avaliação de um conjunto de arquiteturas conhecidas para classificar o potencial de malignização em imagens patológicas de biópsias de displasia epitelial oral. Nesta investigação transversal, examinamos uma coorte de 82 indivíduos com lesões potencialmente malignas da boca, analisando 98 imagens de lâminas inteiras confirmadas por biópsia como tendo displasia. Utilizando o sistema binário para displasia epitelial oral como guia, as imagens foram rotuladas manualmente por especialistas. As regiões identificadas foram então segmentadas e fragmentadas em pequenos patches. Os patches foram amostrados de forma não aleatória para os conjuntos de teste e para treinamento/validação. Aumento da variância de cor foi aplicado aos dados de treinamento/validação, resultando em 81.786 patches para treinamento e 4.486 patches para o conjunto de teste independente. O mesmo conjunto de dados foi utilizado para treinar, validar e testar onze redes neurais convolucionais do reconhecidas do estado da arte. Os modelos apresentaram uma alta taxa de aprendizado, mas uma capacidade notavelmente baixa de generalização. A VGG16 teve o melhor desempenho durante o desenvolvimento do modelo, no entanto, apresentou overfiting severo. Entre todas as Redes Neurais Convolucionais (CNNs) examinadas, a VGG16 mostrou a maior precisão, especificidade, F1-score e área sob a curva (71%, 62%, 66% e 65%, respectivamente). A LeNet apresentou a maior sensibilidade com 71% e bons níveis de precisão e F1-score. A EfficientB0 é uma boa opção para mais pesquisas, pois apresentou métricas semelhantes e a menor perda de todas as CNNs. O nível de complexidade da arquitetura de rede não mostrou grande influência na tarefa de classificação, sendo os resultados semelhantes entre as diferentes redes. Além disso, devido à sobreposição de propriedades das duas classes (ou seja, alto risco e baixo risco de malignização), os modelos não generalizaram bem o suficiente para conjuntos de dados do mundo real.