Aprendizado profundo eficiente para classificação de imagens: reduzindo o custo de pré-processamento e otimizando parâmetros

dc.contributor.advisorAmeida Junior, Jurandy Gomes de [UNIFESP]
dc.contributor.advisor-co
dc.contributor.advisorLatteshttp://lattes.cnpq.br/4495269939725770pt_BR
dc.contributor.authorSantos, Samuel Felipe dos [UNIFESP]
dc.contributor.authorLatteshttp://lattes.cnpq.br/6937319280473488pt_BR
dc.coverage.spatialSão José dos Campos, SPpt_BR
dc.date.accessioned2023-11-06T16:16:51Z
dc.date.available2023-11-06T16:16:51Z
dc.date.issued2023-09-27
dc.description.abstractRedes neurais convolucionais têm atingido desempenho de estado da arte em diversas tarefas de visão computacional recentemente, aprendendo representações de alto nível diretamente de imagens RGB. Porém, para aumentar o desempenho desses métodos, a tendência tem sido a utilização de arquiteturas cada vez mais profundas, tornando o alto custo computacional um dos principais problemas enfrentados pelos modelos de aprendizagem profunda, dificultando sua utilização em dispositivos com recursos computacionais limitados. Outro problema é que normalmente os modelos são especializados em um único domínio/tarefa, no entanto, uma quantidade cada vez maior de aplicações do mundo real precisam lidar com múltiplos domínios simultaneamente. O custo computacional de armazenar e executar múltiplas instâncias desses modelos custosos pode limitar ainda mais sua utilização. O objetivo principal deste trabalho é amenizar esses problemas, estudando e propondo métodos para reduzir a carga computacional, gerando assim modelos profundos eficientes que mantenham alto desempenho, mas com custo reduzido. Nós nos concentramos em dois aspectos importantes para a aplicabilidade desses modelos no mundo real: pré-processamento de dados e otimização de parâmetros. Para pré-processamento de dados, estudamos modelos projetados para trabalhar diretamente com imagens compactadas, evitando o custo de decodificação. Percebemos que os trabalhos na literatura aumentaram a complexidade computacional do modelo para acomodar as imagens comprimidas, correndo o risco de anular o ganho de velocidade obtido pela não decodificação. Propusemos então técnicas melhores de pré-processamento que nos permitiram não aumentar o custo computacional do modelo, aproveitando ao máximo a aceleração obtida ao evitar a decodificação. Para otimização de parâmetros, abordamos o aprendizado em múltiplos domínios, utilizando um modelo único para lidar com eles. Nossa estratégia proposta possui um orçamento definido pelo usuário capaz de reduzir tanto a complexidade computacional quanto o número de parâmetros ao compartilhar parâmetros entre domínios e podar os não utilizados. Até onde sabemos, nosso trabalho é um dos únicos que aborda o aprendizado em múltiplos domínios e é capaz de reduzir a quantidade de parâmetros para valores abaixo da quantidade utilizada pelo modelo base para um único domínio. Ambas as nossas estratégias obtiveram sucesso na geração de modelos eficientes, alcançando bom desempenho de classificação com um custo computacional reduzido, podendo assim serem implantados em uma gama mais ampla de dispositivos.pt_BR
dc.description.abstractConvolutional neural networks have achieved state-of-the-art performance in several computer vision tasks recently, being able to learn high-level representations directly from RGB images. However, to increase the performance of these methods, the trend has been to use increasingly deeper architectures, making high computational cost one of the main problems faced by deep learning models, hindering their utilization in devices with limited computational resources. Another problem is that usually models are specialized into a single domain/task, while an increasing amount of real world applications need to deal with multiple domains simultaneously. The computational cost of storing and running multiple instances of those costly models can limit their utilization even more. The main objective of this work is to alleviate these problems by studying and proposing methods to reduce the computational burden of deep learning, thus generating efficient deep models that maintain high performance, but with a reduced cost. We focus on two important aspects for the applicability of deep models in the real-world: data preprocessing and parameter optimization. For data preprocessing, we studied models designed to work directly with compressed images, avoiding the cost of decoding. We noticed that works on literature increased the model computational complexity in order to accommodate for the compressed images, risking nullifying the speed up gained by not decoding the images. We proposed better preprocessing techniques that allowed us to not increase the computational cost of the model, taking full advantage of the speed up obtained by avoiding the decoding. For parameter optimization, we tackled multi-domain learning, utilizing a single model for handling multiple domains. Our proposed strategy has a user-defined budget capable of reducing both the computational complexity and number of parameters by sharing parameters among domains and pruning the unused ones. To our knowledge, our work is one of the only ones that tackles multi-domain learning and is capable of reducing the amount of parameters to values below the amount used by the single domain backbone. Both of our strategies were successful in generating efficient models, achieving good classification performance with a reduced computational cost, allowing them to be deployed in a wider array of devices.pt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)pt_BR
dc.description.sponsorshipID88887.470076/2019-00pt_BR
dc.emailadvisor.customjurandy.almeida@ufscar.brpt_BR
dc.format.extent104 f.pt_BR
dc.identifier.urihttps://repositorio.unifesp.br/handle/11600/69436
dc.languageengpt_BR
dc.publisherUniversidade Federal de São Paulopt_BR
dc.rightsinfo:eu-repo/semantics/openAccesspt_BR
dc.subjectAceleração de CNNpt_BR
dc.subjectImagens comprimidaspt_BR
dc.subjectAprendizado no domínio da frequênciapt_BR
dc.subjectAprendizado em múltiplos domíniospt_BR
dc.subjectPodapt_BR
dc.titleAprendizado profundo eficiente para classificação de imagens: reduzindo o custo de pré-processamento e otimizando parâmetrospt_BR
dc.title.alternativeEfficient deep learning for image classification: reducing preprocessing cost and optimizing parameterspt_BR
dc.typeinfo:eu-repo/semantics/doctoralThesispt_BR
unifesp.campusInstituto de Ciência e Tecnologia (ICT)pt_BR
unifesp.graduateProgramCiência da Computaçãopt_BR
unifesp.knowledgeAreaCiência da Computaçãopt_BR
unifesp.researchAreaSistemas Inteligentespt_BR
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
tese_doutorado_samuel_final.pdf
Tamanho:
7.18 MB
Formato:
Adobe Portable Document Format
Descrição:
Tese de Doutorado
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
5.74 KB
Formato:
Item-specific license agreed upon to submission
Descrição: