Métodos de adaptação de domínio de conjunto aberto em redes profundas para reconhecimento de imagens

dc.contributor.advisorAlmeida Junior, Jurandy Gomes de
dc.contributor.advisorLatteshttp://lattes.cnpq.br/4495269939725770pt_BR
dc.contributor.authorSilva, Lucas Fernando Alvarenga e [UNIFESP]
dc.contributor.authorLatteshttp://lattes.cnpq.br/4140520490333280pt_BR
dc.coverage.spatialSão José dos Campos, SPpt_BR
dc.date.accessioned2023-03-21T17:09:05Z
dc.date.available2023-03-21T17:09:05Z
dc.date.issued2023-01-31
dc.description.abstractMétodos de aprendizado profundo trouxeram avanços revolucionários para diversas áreas da sociedade devido a sua grande capacidade de aprendizagem pela exposição aos dados. Essa revolução vem sendo observada principalmente após a revisitação das Redes Neurais Convolucionais, que, com o vasto poder computacional e dados que estão disponíveis atualmente, permitiram aumentar substancialmente o desenvolvimento de sistemas multimídia inteligentes, que entregam resultados melhores e mais rápidos que operadores humanos. Contudo, a inferência de tais sistemas em ambientes não controlados pode sofrer degradação de desempenho, por exemplo, quando aplicados no mundo real em dados não-rotulados. Sabe-se que rotular um conjunto de dados é uma tarefa custosa e propensa a erros, existindo casos que seriam até mesmo impossíveis. Como forma de evitar esse trabalho, abordagens ingênuas treinam modelos de aprendizado profundo em conjuntos de dados rotulados (i. e. domínios-fonte) que sejam similares ao conjunto de dados não-rotulado de teste (i. e. domínio-alvo). Porém, essa abordagem pode não gerar resultados ideais. Normalmente, os conjuntos de dados rotulados usados como domínio-fonte apresentam uma mudança de domínio com relação ao domínio-alvo e, além disso, no pior caso, seu conjunto de classes pode também não representar completamente todas as classes necessárias para uma correta classificação do domínio-alvo. Cada um desses problemas, individualmente, são objetivo das áreas de pesquisa da Adaptação de Domínio Não-Supervisionada (UDA) e Reconhecimento de Conjunto Aberto (OSR). Com base nesses problemas, este trabalho apresenta duas principais contribuições. A primeira consiste no desenvolvimento das Camadas de Alinhamento de Domínio de Muitas Fontes (MS-DIAL), uma solução estrutural para métodos de aprendizagem profunda voltada para o cenário mais desafiador da UDA, quando os modelos são treinados sobre muitos domínios-fontes. Seu funcionamento espera alinhar as distribuições de cada um dos domínios em diferentes níveis de seu espaço de características. Individualmente, o MS-DIAL obteve resultados competitivos ao estado-da-arte e, além disso, permitiu aumentar a transferibilidade de métodos de UDA, com ganhos relativos de desempenho de até 30,64%. Em seguida, o uso do MS-DIAL foi investigado no cenário resultante da combinação de ambos os problemas supracitados, a Adaptação de Domínio de Conjuntos Abertos. Esse problema acontece quando, durante a inferência, existe um domínio-alvo não-rotulado que simultaneamente apresenta uma mudança de domínio com relação ao conjunto de treinamento (UDA) e contém observações de classes desconhecidas ao domínio-fonte (OSR). Para isso, Métodos Generativos foram usados individualmente ou conjuntamente com técnicas de Aprendizado Contrastivo, respectivamente, para geração de observações negativas que estejam fora do escopo de conhecimento do modelo, mas semanticamente próximas ao domínio-fonte, e também para geração de um espaço de características melhor discriminado. Neste caso, apesar de ainda se observar a importância associada a escolha do domínio-fonte, pôde-se observar resultados competitivos ou melhores em média que o estado-da-arte.pt_BR
dc.description.abstractDeep learning methods have brought revolutionary advances to different areas of society due to their great learning capacity from data exposure. This revolution has been observed mainly after the revisitation of Convolutional Neural Networks, which, given the vast computational power and data that are currently available, allowed a substantial increase in the development of intelligent multimedia systems, that deliver better and faster results than human operators. However, the inference of such systems in uncontrolled environments can suffer performance degradation to some extent, for example, when applied to unlabelled data from the real world. It is well known that labeling a dataset is a costly and error-prone task, sometimes even impossible. As a way to avoid it, naive approaches train deep learning models on labeled datasets (i. e. source domains) similar to the test unlabeled dataset (i. e. target domain). However, this approach may not yield ideal results. Usually, labeled datasets used as source domains may present domain shift with respect to the target domain and, moreover, in the worst case, their set of known classes may not represent all the necessary classes to correctly classify the target domain. Individually, each of these problems have been the goal of the Unsupervised Domain Adaptation (UDA) and Open Set Recognition (OSR) research areas. Based on these problems, this work has two main contributions. The first consists in the development of the Multi-Source Domain Alignment Layers (MS-DIAL), a structural solution for deep learning methods that deals with the challenging scenario of UDA when models are trained on multi-source domains. Its operation tries to align the distributions of each of the domains at different levels of feature spaces. Individually, MS-DIAL obtained competitive results with the state-of-the-art and also increase the transferability of UDA methods, obtaining up to 30.64% of relative performance gains. In sequence, the use of MS-DIAL was investigated in the resulting scenario of the combination of both aforementioned problems, the Open Set Domain Adaptation. This problem happens when, during inference, there is an unlabeled target domain that simultaneously has domain shift regarding the training set (UDA) and contains observations from unknown classes learned from the source domain (OSR). Generative methods were used individually or along with Contrastive Learning techniques, respectively, to generate negative observations that are outside the scope of knowledge of the model but semantically close to the source domain, and also to generate a better-discriminated feature space. In this case, despite the importance of choosing the right source domain, it was possible to observe results that were competitive or better than the state-of-the-art.pt_BR
dc.description.sponsorshipFundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)pt_BR
dc.description.sponsorshipID2020/08770-3pt_BR
dc.emailadvisor.customjurandy.almeida@ufscar.brpt_BR
dc.format.extent97 f.pt_BR
dc.identifier.urihttps://repositorio.unifesp.br/handle/11600/67273
dc.languageporpt_BR
dc.publisherUniversidade Federal de São Paulopt_BR
dc.rightsinfo:eu-repo/semantics/openAccesspt_BR
dc.subjectAprendizado profundopt_BR
dc.subjectAdaptação de Domínio não-supervisionadapt_BR
dc.subjectAdaptação de Domínio de Conjuntos Abertospt_BR
dc.titleMétodos de adaptação de domínio de conjunto aberto em redes profundas para reconhecimento de imagenspt_BR
dc.typeinfo:eu-repo/semantics/masterThesispt_BR
unifesp.campusInstituto de Ciência e Tecnologia (ICT)pt_BR
unifesp.graduateProgramCiência da Computaçãopt_BR
unifesp.knowledgeAreaInteligência Artificialpt_BR
unifesp.researchAreaAprendizado Profundopt_BR
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
dissertacao_pdfa.pdf
Tamanho:
25.73 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
5.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: