Métodos de adaptação de domínio de conjunto aberto em redes profundas para reconhecimento de imagens

Data
2023-01-31
Tipo
Dissertação de mestrado
Título da Revista
ISSN da Revista
Título de Volume
Resumo
Métodos de aprendizado profundo trouxeram avanços revolucionários para diversas áreas da sociedade devido a sua grande capacidade de aprendizagem pela exposição aos dados. Essa revolução vem sendo observada principalmente após a revisitação das Redes Neurais Convolucionais, que, com o vasto poder computacional e dados que estão disponíveis atualmente, permitiram aumentar substancialmente o desenvolvimento de sistemas multimídia inteligentes, que entregam resultados melhores e mais rápidos que operadores humanos. Contudo, a inferência de tais sistemas em ambientes não controlados pode sofrer degradação de desempenho, por exemplo, quando aplicados no mundo real em dados não-rotulados. Sabe-se que rotular um conjunto de dados é uma tarefa custosa e propensa a erros, existindo casos que seriam até mesmo impossíveis. Como forma de evitar esse trabalho, abordagens ingênuas treinam modelos de aprendizado profundo em conjuntos de dados rotulados (i. e. domínios-fonte) que sejam similares ao conjunto de dados não-rotulado de teste (i. e. domínio-alvo). Porém, essa abordagem pode não gerar resultados ideais. Normalmente, os conjuntos de dados rotulados usados como domínio-fonte apresentam uma mudança de domínio com relação ao domínio-alvo e, além disso, no pior caso, seu conjunto de classes pode também não representar completamente todas as classes necessárias para uma correta classificação do domínio-alvo. Cada um desses problemas, individualmente, são objetivo das áreas de pesquisa da Adaptação de Domínio Não-Supervisionada (UDA) e Reconhecimento de Conjunto Aberto (OSR). Com base nesses problemas, este trabalho apresenta duas principais contribuições. A primeira consiste no desenvolvimento das Camadas de Alinhamento de Domínio de Muitas Fontes (MS-DIAL), uma solução estrutural para métodos de aprendizagem profunda voltada para o cenário mais desafiador da UDA, quando os modelos são treinados sobre muitos domínios-fontes. Seu funcionamento espera alinhar as distribuições de cada um dos domínios em diferentes níveis de seu espaço de características. Individualmente, o MS-DIAL obteve resultados competitivos ao estado-da-arte e, além disso, permitiu aumentar a transferibilidade de métodos de UDA, com ganhos relativos de desempenho de até 30,64%. Em seguida, o uso do MS-DIAL foi investigado no cenário resultante da combinação de ambos os problemas supracitados, a Adaptação de Domínio de Conjuntos Abertos. Esse problema acontece quando, durante a inferência, existe um domínio-alvo não-rotulado que simultaneamente apresenta uma mudança de domínio com relação ao conjunto de treinamento (UDA) e contém observações de classes desconhecidas ao domínio-fonte (OSR). Para isso, Métodos Generativos foram usados individualmente ou conjuntamente com técnicas de Aprendizado Contrastivo, respectivamente, para geração de observações negativas que estejam fora do escopo de conhecimento do modelo, mas semanticamente próximas ao domínio-fonte, e também para geração de um espaço de características melhor discriminado. Neste caso, apesar de ainda se observar a importância associada a escolha do domínio-fonte, pôde-se observar resultados competitivos ou melhores em média que o estado-da-arte.
Deep learning methods have brought revolutionary advances to different areas of society due to their great learning capacity from data exposure. This revolution has been observed mainly after the revisitation of Convolutional Neural Networks, which, given the vast computational power and data that are currently available, allowed a substantial increase in the development of intelligent multimedia systems, that deliver better and faster results than human operators. However, the inference of such systems in uncontrolled environments can suffer performance degradation to some extent, for example, when applied to unlabelled data from the real world. It is well known that labeling a dataset is a costly and error-prone task, sometimes even impossible. As a way to avoid it, naive approaches train deep learning models on labeled datasets (i. e. source domains) similar to the test unlabeled dataset (i. e. target domain). However, this approach may not yield ideal results. Usually, labeled datasets used as source domains may present domain shift with respect to the target domain and, moreover, in the worst case, their set of known classes may not represent all the necessary classes to correctly classify the target domain. Individually, each of these problems have been the goal of the Unsupervised Domain Adaptation (UDA) and Open Set Recognition (OSR) research areas. Based on these problems, this work has two main contributions. The first consists in the development of the Multi-Source Domain Alignment Layers (MS-DIAL), a structural solution for deep learning methods that deals with the challenging scenario of UDA when models are trained on multi-source domains. Its operation tries to align the distributions of each of the domains at different levels of feature spaces. Individually, MS-DIAL obtained competitive results with the state-of-the-art and also increase the transferability of UDA methods, obtaining up to 30.64% of relative performance gains. In sequence, the use of MS-DIAL was investigated in the resulting scenario of the combination of both aforementioned problems, the Open Set Domain Adaptation. This problem happens when, during inference, there is an unlabeled target domain that simultaneously has domain shift regarding the training set (UDA) and contains observations from unknown classes learned from the source domain (OSR). Generative methods were used individually or along with Contrastive Learning techniques, respectively, to generate negative observations that are outside the scope of knowledge of the model but semantically close to the source domain, and also to generate a better-discriminated feature space. In this case, despite the importance of choosing the right source domain, it was possible to observe results that were competitive or better than the state-of-the-art.
Descrição
Citação
Pré-visualização PDF(s)