Desambiguação de sentidos de palavras por meio de aprendizado semissupervisionado e word embeddings

Sousa, Samuel Bruno Da Silva [UNIFESP]

Desambiguação de sentidos de palavras por meio de aprendizado semissupervisionado e word embeddings

Data

2020-01-27

Autores

Sousa, Samuel Bruno Da Silva [UNIFESP]

Orientadores

Berton, Lilian [UNIFESP]

Tipo

Dissertação de mestrado

Resumo

Words naturally present more than one meaning and ambiguity is a recurrent feature in natural languages. Consequently, the task of Word Sense Disambiguation (WSD) aims at defining which word sense is the most adequate in a given context by using computers. WSD is one of the main problems in the field of Natural Language Processing (NLP) since many other tasks, such as Machine Translation and Information Retrieval, may have their results enhanced by accurate disambiguation systems. To solve this problem, several Machine Learning (ML) approaches have been used, such as unsupervised, supervised, and semi-supervised learning. However, the lack of labeled data to train supervised algorithms made models which combine labeled and unlabeled data in the learning process appear as a potential solution. Additionally, a comparative study of semi-supervised learning (SSL) approaches for WSD was not done before, as well as the combined employment of SSL algorithms with efficient word representations known as word embeddings, which became popular in the literature of NLP. Hence, the main goal of this work concerns the investigation of the performance of several semi-supervised algorithms applied to the problem of WSD, using word embeddings as features. To do so, four graph-based SSL algorithms were compared to each other on the main benchmark datasets for WSD. In order to check the word embeddings influence on the final results of the algorithms, six different setups for the Word2Vec model were trained and employed. The experimental results show that SSL models present competitive performances against supervised approaches, reaching over 80% of F1 score when only 25% of labeled data are input. Furthermore, these algorithms have the advantage of avoiding a new training step to classify new words.
As palavras naturalmente apresentam mais de um significado, e a ambiguidade é uma característica recorrente nas linguagens naturais. Por consequência, a tarefa de desambiguação de sentidos de palavras (DSP) visa definir qual dos sentidos de uma palavra é o mais adequado em um determinado contexto de maneira computacional. Esse é um dos principais problemas da área de Processamento de Linguagem Natural (PLN), visto que diversas outras tarefas como a tradução automática e a recuperação da informação, podem ter seus resultados melhorados por sistemas acurados de desambiguação. Para se resolver esse problema, diversas abordagens de Aprendizado de Máquina (AM) vêm sendo utilizadas, tais quais as supervisionadas, não supervisionadas e semissupervisionadas. Contudo, diante da falta de dados rotulados para o treinamento de algoritmos supervisionados, modelos que combinam dados rotulados e não rotulados no processo de aprendizagem apareceram como uma solução em potencial. Adicionalmente, um estudo comparativo entre abordagens semissupervisionadas para desambiguação ainda não foi realizado, assim como a combinação dessa classe de algoritmos de AM com representações eficientes de palavras conhecidas como word embeddings, que vêm ganhando popularidade na literatura de PLN. Logo, esse trabalho visa investigar o desempenho de diferentes algoritmos semissupervisionados aplicados ao problema de desambiguação, utilizando word embeddings como atributos. Para tal, foram comparados quatro algoritmos semissupervisionados baseados em grafos executados nos principais conjuntos de dados para benchmark da tarefa de DSP. Para se verificar a influência das word embeddings no resultado final desses algoritmos, seis configurações do modelo Word2Vec foram treinadas e utilizadas. Os resultados dos experimentos realizados mostram que os modelos semissupervisionados têm desempenho competitivo em relação a abordagens supervisionadas, além de atingirem mais de 80% de medida F1, utilizando apenas 25% de dados rotulados, e serem modelos incrementais que não demandam uma nova fase de treinamento para classificar novas palavras.