Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos

Duarte, José Marcio [UNIFESP]

Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos

Arquivos

Doutorado_A.pdf(14.82 MB)

Doutorado_final_A.pdf(15.41 MB)

Data

2023-11-27

Autores

Duarte, José Marcio

Orientadores

Berton, Lilian

Tipo

Tese de doutorado

Resumo

O advento da Internet transformou a maneira como pessoas e empresas se relacionam e comunicam informações e tem gerado uma quantidade significativa de dados em formato de texto em linguagem natural. Os documentos textuais são dados não estruturados e uma maneira de tratá-los é com o Processamento de Linguagem Natural (PLN), que é uma subárea da Inteligência Artificial, voltada para o desenvolvimento de técnicas capazes de interpretar e processar textos computacionalmente. Algoritmos de aprendizado de máquina, em especial as redes neurais têm alcançado resultados relevantes na compreensão e análise das linguagens naturais. Uma das tarefas do PLN que é de abrangente utilidade é a classificação automática de texto. No processo de classificação de texto destaca-se a representação textual que tem sido aperfeiçoada com técnicas avançadas de redes neurais que geram uma representação distribuída das palavras considerando seus contextos, visando contribuir na performance do classificador. Neste trabalho, Foi realizado uma análise de representações de texto estática e contextual para tarefas do PLN, incluindo a desambiguação no sentido da palavra e classificação de texto. Na classificação automática a abordagem supervisionada é comumente usada, neste caso, é necessário que os dados sejam rotulados para o treinamento do modelo, porém, essa tarefa implica custos e requer um período considerável de tempo. Portanto, uma estratégia para contornar a dificuldade do processo de anotação dos dados é o aprendizado semissupervisionado, cuja abordagem requer uma pequena quantidade de dados rotulados e a maior parte dos dados não precisa ser anotado. A fim de mapear o estado da arte no uso de aprendizado semissupervisionado em classificação textual, realizou-se uma revisão sistemática e identificou-se que essa abordagem é proeminente em várias aplicações. Na classificação semissupervisionada de texto o Treinamento Adversário Virtual (TAV) apresenta-se como um método adequado para regularizar o classificador e reduzir o \textit{overfitting}. Inspirado no mecanismo de atenção e o treinamento virtual adversário para o aprendizado semissupervisionado, esta pesquisa propôs uma nova abordagem com a perturbação adversária para o mecanismo de atenção. O método proposto investigou métodos de perturbação no mecanismo de atenção para geração de exemplos adversários para serem usados no treinamento adversário virtual para regularização do modelo de classificação. Os resultados obtidos considerando quatro datasets \textit{benchmarks} (AgNews, IMDB, SST, 20News) mostram um bom desempenho do modelo com ganho de acurácia em alguns \textit{datasets} e menor tempo de processamento, superando o TAV com perturbação nas \textit{embeddings} previamente explorado na literatura.
The advent of the Internet has transformed the way people and companies interact and communicate information and has generated a significant amount of data in natural language text format. Textual documents are unstructured data and Natural Language Processing (NLP) is a method to treat them, which is a sub-area of Artificial Intelligence, aimed at developing techniques capable of computationally interpreting and processing texts. With the support of machine learning algorithms, especially neural networks, relevant results have been achieved in the understanding and analysis of natural languages. One of the NLP tasks that is widely useful is automatic text classification. In the text classification process, textual representation has been attract attention, and has been improved with advanced neural network techniques that generate a distributed representation of words considering their contexts, aiming to contribute to the classifier's performance. In this work, we carried out an analysis of static and contextual text representation methods for NLP tasks, including word sense disambiguation and text classification. In automatic classification, the supervised approach is commonly used, where the data needs to be labeled for model training, however, the labeling task involves costs and requires a considerable period of time. Therefore, a strategy to overcome the difficulty of the data annotation process is semi-supervised learning, whose approach requires a small amount of labeled data and the most part of the data does not need to be annotated. In order to map the state of the art in the use of semi-supervised learning in textual classification, we carried out a systematic review and we identified that this approach is prominent in several applications. In semi-supervised text classification, Virtual Adversarial Training (TAV) presents itself as a suitable method to regularize the classifier and reduce overfitting. Inspired by the attention mechanism and adversarial training for semi-supervised learning, this research proposed a new approach with adversarial perturbation for the attention mechanism. The proposed method investigated perturbation methods to attention mechanisms to generate adversarial examples and with the virtual adversarial training regularize the classification model. The results obtained considering four benchmarks datasets (AgNews, IMDB, SST, 20News) show good performance of the model with a gain in accuracy in some datasets and shorter processing time, surpassing TAV with embeddings perturbation, previously explored in the literature.

Citação

Duarte, José Marcio. Desenvolvimento de perturbação no mecanismo de atenção e treinamento adversário virtual para aprimorar o aprendizado semissupervisionado na classificação de textos. 2023. Tese (Doutorado em Ciência da Computação) - Instituto de Ciência e Tecnologia - Universidade Federal de São Paulo, São José dos Campos, 2023.