Desambiguação de sentidos de palavras por meio de aprendizado semissupervisionado e word embeddings

Sousa, Samuel Bruno Da Silva [UNIFESP]

Desambiguação de sentidos de palavras por meio de aprendizado semissupervisionado e word embeddings

dc.audience.educationlevel	Mestrado
dc.contributor.advisor	Berton, Lilian [UNIFESP]
dc.contributor.author	Sousa, Samuel Bruno Da Silva [UNIFESP]
dc.contributor.institution	Universidade Federal de São Paulo	pt
dc.date.accessioned	2022-07-21T16:53:58Z
dc.date.available	2022-07-21T16:53:58Z
dc.date.issued	2020-01-27
dc.description.abstract	Words naturally present more than one meaning and ambiguity is a recurrent feature in natural languages. Consequently, the task of Word Sense Disambiguation (WSD) aims at defining which word sense is the most adequate in a given context by using computers. WSD is one of the main problems in the field of Natural Language Processing (NLP) since many other tasks, such as Machine Translation and Information Retrieval, may have their results enhanced by accurate disambiguation systems. To solve this problem, several Machine Learning (ML) approaches have been used, such as unsupervised, supervised, and semi-supervised learning. However, the lack of labeled data to train supervised algorithms made models which combine labeled and unlabeled data in the learning process appear as a potential solution. Additionally, a comparative study of semi-supervised learning (SSL) approaches for WSD was not done before, as well as the combined employment of SSL algorithms with efficient word representations known as word embeddings, which became popular in the literature of NLP. Hence, the main goal of this work concerns the investigation of the performance of several semi-supervised algorithms applied to the problem of WSD, using word embeddings as features. To do so, four graph-based SSL algorithms were compared to each other on the main benchmark datasets for WSD. In order to check the word embeddings influence on the final results of the algorithms, six different setups for the Word2Vec model were trained and employed. The experimental results show that SSL models present competitive performances against supervised approaches, reaching over 80% of F1 score when only 25% of labeled data are input. Furthermore, these algorithms have the advantage of avoiding a new training step to classify new words.	en
dc.description.abstract	As palavras naturalmente apresentam mais de um significado, e a ambiguidade é uma característica recorrente nas linguagens naturais. Por consequência, a tarefa de desambiguação de sentidos de palavras (DSP) visa definir qual dos sentidos de uma palavra é o mais adequado em um determinado contexto de maneira computacional. Esse é um dos principais problemas da área de Processamento de Linguagem Natural (PLN), visto que diversas outras tarefas como a tradução automática e a recuperação da informação, podem ter seus resultados melhorados por sistemas acurados de desambiguação. Para se resolver esse problema, diversas abordagens de Aprendizado de Máquina (AM) vêm sendo utilizadas, tais quais as supervisionadas, não supervisionadas e semissupervisionadas. Contudo, diante da falta de dados rotulados para o treinamento de algoritmos supervisionados, modelos que combinam dados rotulados e não rotulados no processo de aprendizagem apareceram como uma solução em potencial. Adicionalmente, um estudo comparativo entre abordagens semissupervisionadas para desambiguação ainda não foi realizado, assim como a combinação dessa classe de algoritmos de AM com representações eficientes de palavras conhecidas como word embeddings, que vêm ganhando popularidade na literatura de PLN. Logo, esse trabalho visa investigar o desempenho de diferentes algoritmos semissupervisionados aplicados ao problema de desambiguação, utilizando word embeddings como atributos. Para tal, foram comparados quatro algoritmos semissupervisionados baseados em grafos executados nos principais conjuntos de dados para benchmark da tarefa de DSP. Para se verificar a influência das word embeddings no resultado final desses algoritmos, seis configurações do modelo Word2Vec foram treinadas e utilizadas. Os resultados dos experimentos realizados mostram que os modelos semissupervisionados têm desempenho competitivo em relação a abordagens supervisionadas, além de atingirem mais de 80% de medida F1, utilizando apenas 25% de dados rotulados, e serem modelos incrementais que não demandam uma nova fase de treinamento para classificar novas palavras.	pt
dc.description.source	Dados abertos - Sucupira - Teses e dissertações (2020)
dc.identifier	https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=8460219
dc.identifier.uri	https://hdl.handle.net/11600/64610
dc.language.iso	por
dc.publisher	Universidade Federal de São Paulo (UNIFESP)
dc.rights	info:eu-repo/semantics/restrictedAccess
dc.subject	Artificial Intelligence	en
dc.subject	Machine Learning	en
dc.subject	Word Sense Disambiguation	en
dc.subject	Inteligência Artificial	pt
dc.subject	Desambiguação De Sentidos De Palavras	pt
dc.subject	Aprendizado De Máquina	pt
dc.subject	Processamento De Linguagem Natural	pt
dc.title	Desambiguação de sentidos de palavras por meio de aprendizado semissupervisionado e word embeddings	pt
dc.type	info:eu-repo/semantics/masterThesis
unifesp.campus	São José dos Campos, Instituto de Ciência e Tecnologia	pt
unifesp.graduateProgram	Ciência da Computação	pt
unifesp.knowledgeArea	Ciência Da Computação	pt
unifesp.researchArea	Sistemas Inteligentes	pt

Coleções

PPG - Ciência da Computação

Desambiguação de sentidos de palavras por meio de aprendizado semissupervisionado e word embeddings

Arquivos

Coleções