Aprendizado profundo eficiente para classificação de imagens: reduzindo o custo de pré-processamento e otimizando parâmetros

Santos, Samuel Felipe dos [UNIFESP]

Aprendizado profundo eficiente para classificação de imagens: reduzindo o custo de pré-processamento e otimizando parâmetros

Arquivos

tese_doutorado_samuel_final.pdf(7.18 MB)

Data

2023-09-27

Autores

Santos, Samuel Felipe dos

Orientadores

Ameida Junior, Jurandy Gomes de

Tipo

Tese de doutorado

Resumo

Redes neurais convolucionais têm atingido desempenho de estado da arte em diversas tarefas de visão computacional recentemente, aprendendo representações de alto nível diretamente de imagens RGB. Porém, para aumentar o desempenho desses métodos, a tendência tem sido a utilização de arquiteturas cada vez mais profundas, tornando o alto custo computacional um dos principais problemas enfrentados pelos modelos de aprendizagem profunda, dificultando sua utilização em dispositivos com recursos computacionais limitados. Outro problema é que normalmente os modelos são especializados em um único domínio/tarefa, no entanto, uma quantidade cada vez maior de aplicações do mundo real precisam lidar com múltiplos domínios simultaneamente. O custo computacional de armazenar e executar múltiplas instâncias desses modelos custosos pode limitar ainda mais sua utilização. O objetivo principal deste trabalho é amenizar esses problemas, estudando e propondo métodos para reduzir a carga computacional, gerando assim modelos profundos eficientes que mantenham alto desempenho, mas com custo reduzido. Nós nos concentramos em dois aspectos importantes para a aplicabilidade desses modelos no mundo real: pré-processamento de dados e otimização de parâmetros. Para pré-processamento de dados, estudamos modelos projetados para trabalhar diretamente com imagens compactadas, evitando o custo de decodificação. Percebemos que os trabalhos na literatura aumentaram a complexidade computacional do modelo para acomodar as imagens comprimidas, correndo o risco de anular o ganho de velocidade obtido pela não decodificação. Propusemos então técnicas melhores de pré-processamento que nos permitiram não aumentar o custo computacional do modelo, aproveitando ao máximo a aceleração obtida ao evitar a decodificação. Para otimização de parâmetros, abordamos o aprendizado em múltiplos domínios, utilizando um modelo único para lidar com eles. Nossa estratégia proposta possui um orçamento definido pelo usuário capaz de reduzir tanto a complexidade computacional quanto o número de parâmetros ao compartilhar parâmetros entre domínios e podar os não utilizados. Até onde sabemos, nosso trabalho é um dos únicos que aborda o aprendizado em múltiplos domínios e é capaz de reduzir a quantidade de parâmetros para valores abaixo da quantidade utilizada pelo modelo base para um único domínio. Ambas as nossas estratégias obtiveram sucesso na geração de modelos eficientes, alcançando bom desempenho de classificação com um custo computacional reduzido, podendo assim serem implantados em uma gama mais ampla de dispositivos.
Convolutional neural networks have achieved state-of-the-art performance in several computer vision tasks recently, being able to learn high-level representations directly from RGB images. However, to increase the performance of these methods, the trend has been to use increasingly deeper architectures, making high computational cost one of the main problems faced by deep learning models, hindering their utilization in devices with limited computational resources. Another problem is that usually models are specialized into a single domain/task, while an increasing amount of real world applications need to deal with multiple domains simultaneously. The computational cost of storing and running multiple instances of those costly models can limit their utilization even more. The main objective of this work is to alleviate these problems by studying and proposing methods to reduce the computational burden of deep learning, thus generating efficient deep models that maintain high performance, but with a reduced cost. We focus on two important aspects for the applicability of deep models in the real-world: data preprocessing and parameter optimization. For data preprocessing, we studied models designed to work directly with compressed images, avoiding the cost of decoding. We noticed that works on literature increased the model computational complexity in order to accommodate for the compressed images, risking nullifying the speed up gained by not decoding the images. We proposed better preprocessing techniques that allowed us to not increase the computational cost of the model, taking full advantage of the speed up obtained by avoiding the decoding. For parameter optimization, we tackled multi-domain learning, utilizing a single model for handling multiple domains. Our proposed strategy has a user-defined budget capable of reducing both the computational complexity and number of parameters by sharing parameters among domains and pruning the unused ones. To our knowledge, our work is one of the only ones that tackles multi-domain learning and is capable of reducing the amount of parameters to values below the amount used by the single domain backbone. Both of our strategies were successful in generating efficient models, achieving good classification performance with a reduced computational cost, allowing them to be deployed in a wider array of devices.