Métodos de adaptação de domínio de conjunto aberto em redes profundas para reconhecimento de imagens

Silva, Lucas Fernando Alvarenga e [UNIFESP]

Métodos de adaptação de domínio de conjunto aberto em redes profundas para reconhecimento de imagens

dc.contributor.advisor	Almeida Junior, Jurandy Gomes de
dc.contributor.advisorLattes	http://lattes.cnpq.br/4495269939725770	pt_BR
dc.contributor.author	Silva, Lucas Fernando Alvarenga e [UNIFESP]
dc.contributor.authorLattes	http://lattes.cnpq.br/4140520490333280	pt_BR
dc.coverage.spatial	São José dos Campos, SP	pt_BR
dc.date.accessioned	2023-03-21T17:09:05Z
dc.date.available	2023-03-21T17:09:05Z
dc.date.issued	2023-01-31
dc.description.abstract	Métodos de aprendizado profundo trouxeram avanços revolucionários para diversas áreas da sociedade devido a sua grande capacidade de aprendizagem pela exposição aos dados. Essa revolução vem sendo observada principalmente após a revisitação das Redes Neurais Convolucionais, que, com o vasto poder computacional e dados que estão disponíveis atualmente, permitiram aumentar substancialmente o desenvolvimento de sistemas multimídia inteligentes, que entregam resultados melhores e mais rápidos que operadores humanos. Contudo, a inferência de tais sistemas em ambientes não controlados pode sofrer degradação de desempenho, por exemplo, quando aplicados no mundo real em dados não-rotulados. Sabe-se que rotular um conjunto de dados é uma tarefa custosa e propensa a erros, existindo casos que seriam até mesmo impossíveis. Como forma de evitar esse trabalho, abordagens ingênuas treinam modelos de aprendizado profundo em conjuntos de dados rotulados (i. e. domínios-fonte) que sejam similares ao conjunto de dados não-rotulado de teste (i. e. domínio-alvo). Porém, essa abordagem pode não gerar resultados ideais. Normalmente, os conjuntos de dados rotulados usados como domínio-fonte apresentam uma mudança de domínio com relação ao domínio-alvo e, além disso, no pior caso, seu conjunto de classes pode também não representar completamente todas as classes necessárias para uma correta classificação do domínio-alvo. Cada um desses problemas, individualmente, são objetivo das áreas de pesquisa da Adaptação de Domínio Não-Supervisionada (UDA) e Reconhecimento de Conjunto Aberto (OSR). Com base nesses problemas, este trabalho apresenta duas principais contribuições. A primeira consiste no desenvolvimento das Camadas de Alinhamento de Domínio de Muitas Fontes (MS-DIAL), uma solução estrutural para métodos de aprendizagem profunda voltada para o cenário mais desafiador da UDA, quando os modelos são treinados sobre muitos domínios-fontes. Seu funcionamento espera alinhar as distribuições de cada um dos domínios em diferentes níveis de seu espaço de características. Individualmente, o MS-DIAL obteve resultados competitivos ao estado-da-arte e, além disso, permitiu aumentar a transferibilidade de métodos de UDA, com ganhos relativos de desempenho de até 30,64%. Em seguida, o uso do MS-DIAL foi investigado no cenário resultante da combinação de ambos os problemas supracitados, a Adaptação de Domínio de Conjuntos Abertos. Esse problema acontece quando, durante a inferência, existe um domínio-alvo não-rotulado que simultaneamente apresenta uma mudança de domínio com relação ao conjunto de treinamento (UDA) e contém observações de classes desconhecidas ao domínio-fonte (OSR). Para isso, Métodos Generativos foram usados individualmente ou conjuntamente com técnicas de Aprendizado Contrastivo, respectivamente, para geração de observações negativas que estejam fora do escopo de conhecimento do modelo, mas semanticamente próximas ao domínio-fonte, e também para geração de um espaço de características melhor discriminado. Neste caso, apesar de ainda se observar a importância associada a escolha do domínio-fonte, pôde-se observar resultados competitivos ou melhores em média que o estado-da-arte.	pt_BR
dc.description.abstract	Deep learning methods have brought revolutionary advances to different areas of society due to their great learning capacity from data exposure. This revolution has been observed mainly after the revisitation of Convolutional Neural Networks, which, given the vast computational power and data that are currently available, allowed a substantial increase in the development of intelligent multimedia systems, that deliver better and faster results than human operators. However, the inference of such systems in uncontrolled environments can suffer performance degradation to some extent, for example, when applied to unlabelled data from the real world. It is well known that labeling a dataset is a costly and error-prone task, sometimes even impossible. As a way to avoid it, naive approaches train deep learning models on labeled datasets (i. e. source domains) similar to the test unlabeled dataset (i. e. target domain). However, this approach may not yield ideal results. Usually, labeled datasets used as source domains may present domain shift with respect to the target domain and, moreover, in the worst case, their set of known classes may not represent all the necessary classes to correctly classify the target domain. Individually, each of these problems have been the goal of the Unsupervised Domain Adaptation (UDA) and Open Set Recognition (OSR) research areas. Based on these problems, this work has two main contributions. The first consists in the development of the Multi-Source Domain Alignment Layers (MS-DIAL), a structural solution for deep learning methods that deals with the challenging scenario of UDA when models are trained on multi-source domains. Its operation tries to align the distributions of each of the domains at different levels of feature spaces. Individually, MS-DIAL obtained competitive results with the state-of-the-art and also increase the transferability of UDA methods, obtaining up to 30.64% of relative performance gains. In sequence, the use of MS-DIAL was investigated in the resulting scenario of the combination of both aforementioned problems, the Open Set Domain Adaptation. This problem happens when, during inference, there is an unlabeled target domain that simultaneously has domain shift regarding the training set (UDA) and contains observations from unknown classes learned from the source domain (OSR). Generative methods were used individually or along with Contrastive Learning techniques, respectively, to generate negative observations that are outside the scope of knowledge of the model but semantically close to the source domain, and also to generate a better-discriminated feature space. In this case, despite the importance of choosing the right source domain, it was possible to observe results that were competitive or better than the state-of-the-art.	pt_BR
dc.description.sponsorship	Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)	pt_BR
dc.description.sponsorshipID	2020/08770-3	pt_BR
dc.emailadvisor.custom	jurandy.almeida@ufscar.br	pt_BR
dc.format.extent	97 f.	pt_BR
dc.identifier.uri	https://repositorio.unifesp.br/handle/11600/67273
dc.language	por	pt_BR
dc.publisher	Universidade Federal de São Paulo	pt_BR
dc.rights	info:eu-repo/semantics/openAccess	pt_BR
dc.subject	Aprendizado profundo	pt_BR
dc.subject	Adaptação de Domínio não-supervisionada	pt_BR
dc.subject	Adaptação de Domínio de Conjuntos Abertos	pt_BR
dc.title	Métodos de adaptação de domínio de conjunto aberto em redes profundas para reconhecimento de imagens	pt_BR
dc.type	info:eu-repo/semantics/masterThesis	pt_BR
unifesp.campus	Instituto de Ciência e Tecnologia (ICT)	pt_BR
unifesp.graduateProgram	Ciência da Computação	pt_BR
unifesp.knowledgeArea	Inteligência Artificial	pt_BR
unifesp.researchArea	Aprendizado Profundo	pt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: dissertacao_pdfa.pdf
Tamanho:: 25.73 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 5.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

PPG - Ciência da Computação