Reconhecimento automático de padrões em dislexia: uma abordagem baseada em funções visuais da leitura e aprendizado de máquina

Data
2019-12-16
Tipo
Dissertação de mestrado
Título da Revista
ISSN da Revista
Título de Volume
Resumo
INTRODUCTION: Developmental dyslexia is a neurological disorder that affects reading ability, that when left untreated can lead to learning problems and negatively affecting vocabulary increase. The diagnosis of dyslexia is complex and made by exclusion. Some studies evaluated eye movement data in conjunction with machine learning (ML) techniques to classify dyslexia. Another study raises the hypothesis of visual reading function patterns (VRF) for dyslexic differentiation. The study of VRF in combination of ML techniques has not been explored. GENERAL OBJECTIVE: To apply ML techniques to explore and assist the diagnosis of dyslexics from VRF. SPECIFIC OBJECTIVES: To explore dyslexic and non-dyslexic VRF data with feature extraction and to classify dyslexic and non-dyslexic using ML. MATERIAL AND METHODS: This dissertation has two steps: a quantitative and exploratory and a quantitative and correlational. The first step explored two dyslexic VRF datasets, one of 1-line (1L) text readings and the other of 3-line (3L) text readings. The self-organizing map algorithm was applied to each base to separate them into clusters that were then sent to a decision tree to extract the rules characterize each of the groups. The second step used data from 3L readings. The outliers was selected by a specialist. With the remaining data, the SMOTE algorithm was applied. Then a feature selection technique was applied having the best area under the ROC curve (AUC) as target for each of the five selected algorithms. They were compared by AUC and accuracy. All were also compared by their calibration curve. RESULTS: In the first step, the 1L base evaluation resulted in a clustering of 1 cluster of controls and 3 of dyslexics. Only dyslexics obtained Maximum reading speed MRS <140.72 ppm, while in the 3L evaluation, 3 dyslexic clusters and 1 control were obtained. In this only dyslexics had reading speed at critical read size (RSCPS) of less than 112.71 ppm. In the second step, synthetic data were generated for each group to have 100 records. In feature selection, the reading acuity (RA) was selected in 4 of the 5 algorithms. Logistic regression obtained the best AUC (0.999) and accuracy (99%) and obtained the best calibration curve. CONCLUSION: In the first step, the fact that MRS was so determinant in the separation of the 1L clusters and the RSCPS in the first one. It may indicate that the crownding effect had some impact on the 3L test. The fact that RA has been selected in 4 of the 5 feature selections may be an important variable for the diagnosis and study of dyslexia. The logistic regression algorithm obtained the best results and was indicated for VRF-based dyslexic classification.
INTRODUÇÃO: Dislexia do desenvolvimento é uma disfunção neurológica que afeta a habilidade de leitura, que se não tratado pode levar a problemas de aprendizado e impactando negativamente o aumento de vocabulário. O diagnóstico da dislexia é complexo e feito por exclusão. Alguns estudos avaliaram dados de movimento ocular em conjunto com técnicas de aprendizado de máquina (AM) para classificar a dislexia. Outro estudo levanta a hipótese de padrões de funções visuais de leitura (FVL) para compreensão da dislexia. Entretanto, o estudo de FVL em conjunto de técnicas de AM ainda não foi explorado. OBJETIVO GERAL: Aplicar técnicas de aprendizado de máquina (AM) para explorar e auxiliar o diagnóstico de disléxicos a partir das funções visuais de leitura (FVL). OBJETIVOS ESPECÍFICOS: Explorar os dados de FVL de disléxicos e não-disléxicos, a partir de extração de características e classificá-los utilizando AM. MATERIAL E MÉTODOS: Esta dissertação foi executada em duas etapas: uma quantitativa e exploratória e uma quantitativa e correlacional. A primeira etapa explorou os dados de FVL de disléxicos de duas bases, uma de leituras de textos em 1 linha (1L) e outra de 3 linhas (3L). Foi aplicado o algoritmo de mapas auto-organizáveis em cada base para separá-los em clusters que foram então enviados para uma Árvore de Decisão para extrair as regras que regem cada um dos grupos. A segunda etapa utilizou dados de leituras de 3L e foi realizada uma seleção de outliers. Com os dados restantes foi aplicado geração sintética de dados com o algoritmo SMOTE. Então foi aplicado uma técnica de seleção de características tendo a melhor área sob a curva ROC (AUC) como alvo para cada um dos cinco algoritmos selecionados. Eles foram comparados pela AUC e acurácia. Todos também foram comparados pela sua curva de calibração. RESULTADOS: Na primeira etapa, a avaliação da base de 1L, resultou em uma aglomeração de 1 cluster de controles e 3 de disléxicos. Somente disléxicos obtiverem MVL<140,72 ppm, já na avaliação de 3L foram obtidos 3 clusters de disléxicos e 1 de controle. Neste somente disléxicos tiveram uma Velocidade de Leitura no Tamanho Crítico de Letra (VTCL) inferior a 112,71 ppm. Na segunda etapa foram gerados dados sintéticos para cada grupo ter 100 registros. Na seleção de característica a Acuidade de Leitura (AL) foi selecionada em 4 dos 5 algoritmos. A Regressão Logística obteve a melhor AUC (0,999) e acurácia (99%) além de ter obtido a melhor curva de calibração CONCLUSÃO: Na primeira etapa o fato de a MVL ter sido tão determinante na separação dos clusters com 1L e o VTCL no de 3L pode indicar que o efeito de crownding teve algum impacto no teste de 3L. O fato de AL ter sido selecionado em 4 das 5 seleções de características, a torna uma variável importante para o diagnóstico e estudo da dislexia. O algoritmo de Regressão Logística obteve os melhores resultados sendo indicado para classificação de disléxicos com base em FVL.
Descrição
Citação
SILVA JR., Antonio Carlos. Reconhecimento automático de padrões em dislexia: uma abordagem baseada em funções visuais de leitura e aprendizado de máquina. 2019. 44f. Dissertação (Mestrado em Gestão e Informática em Saúde) – Escola Paulista de Medicina, Universidade Federal de São Paulo. São Paulo, 2019.
Pré-visualização PDF(s)