Explorando informação temporal em aprendizado profundo: reconhecimento de ações em vídeos

Santos, Samuel Felipe Dos [UNIFESP]

Explorando informação temporal em aprendizado profundo: reconhecimento de ações em vídeos

Data

2019-08-09

Autores

Santos, Samuel Felipe Dos

Orientadores

Almeida Junior, Jurandy Gomes De

Tipo

Dissertação de mestrado

Resumo

The human action recognition in videos has been a very prominent task in recent years for being challenging and having applications in a wide range of areas, such as surveillance, robotics, health, video search, human-computer interaction, among others. Recently, many works have used deep learning to deal with several problems in computer vision, such as classification, retrieval, segmentation, and pattern recognition in videos. However, one of the main limitations faced by these works is their lack of capacity to learn temporal dynamics due to the large amount of data present in a video, which generates a high computational cost since it is necessary to process a huge amount of data to train a model. Although videos contain a lot of information, they also have a lot of redundancy, which makes it difficult to extract relevant information. To overcome these problems, this work propose a Compressed Video Convolutional 3D network (CV-C3D), which explores information from compressed video, avoiding the high computational cost for fully decoding the video stream. The speed up in data computation enables our network to use 3D convolutions for capturing the temporal context efficiently. The results obtained with the proposed method were evaluated in two public datasets for human action recognition, UCF-101 and HMDB- 51, where our network presented the lowest computational complexity among all the compared methods and maintained comparable performance.
A tarefa de reconhecimento de ações humanas em vídeos tem recebido bastante destaque nos últimos anos por ser desafiadora e possuir aplicações em varias áreas como vigilância, robótica, saúde, pesquisa de vídeos, interação entre humano e computador, entre outras. Recentemente, muitos trabalhos têm usado aprendizado profundo para lidar com diferentes problemas em visão computacional, como classificação, resolução, segmentação e reconhecimento de ações em vídeos. No entanto, uma das principais limitações enfrentadas por esses trabalhos é a sua capacidade de aprender dinâmicas temporais, devido a grande quantidade de dados presente em um vídeo, que gera um alto custo computacional pois é necessário processar enormes quantidades de dados para treinar um modelo, e apesar dos vídeos conterem muita informação, apresentam também muita redundância, o que torna difícil a extração das informações relevantes presentes neles. Para superar esses problemas, esse trabalho propõem a Rede Convolucional 3D para Vídeos Comprimidos (CV-C3D, do inglês Compressed Video Convolutional 3D network), que explora informações da representação comprimida de um vídeo, evitando o alto custo computacional de decodificar o video inteiro. O ganho de velocidade na computação dos dados permite que a rede faça uso de convoluções 3D para capturar o contexto temporal de maneira eficiente. Os resultados obtidos com o método proposto foram avaliados em dois conjuntos de dados públicos de Reconhecimento de Ações Humanas, o UCF-101 e o HMDB-51, onde nossa rede apresentou a menor complexidade computacional entre os métodos comparados e manteve um desempenho comparável.