Explorando informação temporal em aprendizado profundo: reconhecimento de ações em vídeos

Santos, Samuel Felipe Dos [UNIFESP]

Explorando informação temporal em aprendizado profundo: reconhecimento de ações em vídeos

dc.audience.educationlevel	Mestrado
dc.contributor.advisor	Almeida Junior, Jurandy Gomes De [UNIFESP]
dc.contributor.author	Santos, Samuel Felipe Dos [UNIFESP]
dc.contributor.institution	Universidade Federal de São Paulo (UNIFESP)	pt
dc.date.accessioned	2021-01-19T16:34:09Z
dc.date.available	2021-01-19T16:34:09Z
dc.date.issued	2019-08-09
dc.description.abstract	The human action recognition in videos has been a very prominent task in recent years for being challenging and having applications in a wide range of areas, such as surveillance, robotics, health, video search, human-computer interaction, among others. Recently, many works have used deep learning to deal with several problems in computer vision, such as classification, retrieval, segmentation, and pattern recognition in videos. However, one of the main limitations faced by these works is their lack of capacity to learn temporal dynamics due to the large amount of data present in a video, which generates a high computational cost since it is necessary to process a huge amount of data to train a model. Although videos contain a lot of information, they also have a lot of redundancy, which makes it difficult to extract relevant information. To overcome these problems, this work propose a Compressed Video Convolutional 3D network (CV-C3D), which explores information from compressed video, avoiding the high computational cost for fully decoding the video stream. The speed up in data computation enables our network to use 3D convolutions for capturing the temporal context efficiently. The results obtained with the proposed method were evaluated in two public datasets for human action recognition, UCF-101 and HMDB- 51, where our network presented the lowest computational complexity among all the compared methods and maintained comparable performance.	en
dc.description.abstract	A tarefa de reconhecimento de ações humanas em vídeos tem recebido bastante destaque nos últimos anos por ser desafiadora e possuir aplicações em varias áreas como vigilância, robótica, saúde, pesquisa de vídeos, interação entre humano e computador, entre outras. Recentemente, muitos trabalhos têm usado aprendizado profundo para lidar com diferentes problemas em visão computacional, como classificação, resolução, segmentação e reconhecimento de ações em vídeos. No entanto, uma das principais limitações enfrentadas por esses trabalhos é a sua capacidade de aprender dinâmicas temporais, devido a grande quantidade de dados presente em um vídeo, que gera um alto custo computacional pois é necessário processar enormes quantidades de dados para treinar um modelo, e apesar dos vídeos conterem muita informação, apresentam também muita redundância, o que torna difícil a extração das informações relevantes presentes neles. Para superar esses problemas, esse trabalho propõem a Rede Convolucional 3D para Vídeos Comprimidos (CV-C3D, do inglês Compressed Video Convolutional 3D network), que explora informações da representação comprimida de um vídeo, evitando o alto custo computacional de decodificar o video inteiro. O ganho de velocidade na computação dos dados permite que a rede faça uso de convoluções 3D para capturar o contexto temporal de maneira eficiente. Os resultados obtidos com o método proposto foram avaliados em dois conjuntos de dados públicos de Reconhecimento de Ações Humanas, o UCF-101 e o HMDB-51, onde nossa rede apresentou a menor complexidade computacional entre os métodos comparados e manteve um desempenho comparável.	pt
dc.description.source	Dados abertos - Sucupira - Teses e dissertações (2019)
dc.identifier	https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=7840330	pt
dc.identifier.uri	https://repositorio.unifesp.br/handle/11600/59633
dc.language.iso	por
dc.publisher	Universidade Federal de São Paulo (UNIFESP)
dc.rights	info:eu-repo/semantics/restrictedAccess
dc.subject	Machine Learning	en
dc.subject	Aprendizado De Máquina	pt
dc.subject	Vídeos Digitais Comprimidos	pt
dc.subject	Aprendizado Profundo	pt
dc.subject	Reconhecimento De Ações Humanas	pt
dc.title	Explorando informação temporal em aprendizado profundo: reconhecimento de ações em vídeos	pt
dc.type	info:eu-repo/semantics/masterThesis
unifesp.campus	São José dos Campos, Instituto de Ciência e Tecnologia	pt
unifesp.graduateProgram	Ciência da Computação	pt
unifesp.knowledgeArea	Ciência Da Computação	pt
unifesp.researchArea	Sistemas Inteligentes	pt

Coleções

PPG - Ciência da Computação

Explorando informação temporal em aprendizado profundo: reconhecimento de ações em vídeos

Arquivos

Coleções