A Comparative Study On Regression Approaches For Event Detection In Instagram

Data
2017-11-30
Tipo
Dissertação de mestrado
Título da Revista
ISSN da Revista
Título de Volume
Resumo
With the advancement of the use of web-based applications and mobile device technologies, in particular, online social networks, many approaches have been proposed in the literature using it as the source of information. Online social networks like Instagram have more than 700 million users who, together, create over 300 million new content every day. All of this data can be used, for instance, to detect real-world events. Such events can be defined as a car accident, a natural disaster, a riot, a political affair, among others. In order to do that, algorithms need to manage massive, rapidly changing and fast arriving data streams made of text, images, and videos. It also involves challenges such as the lack of a labeled database to analyze the effectiveness of applied techniques that can be reused by other researchers and the need for an approach that adapts to the constant changes in the flow of information. However, existing approaches are often either limited or not suitable for new data sources like Instagram. In this sense, this work provides contributions in the area of event detection for online social networks. As a first contribution a review on how the task of event detection has been approached by researchers since its inception in the 1990’s is presented. The second contribution is an introduction to the behavior and volume characteristics of Instagram posts modeled as time series. Then, a comparative study of different regression techniques for time series prediction is conducted by applying a preprocessing step and algorithms such as Support Vector Regression (SVR), Multilayer Perceptron (MLP), Autoregressive Integrated Moving Averages (ARIMA), Classification and Regression Trees (CART) and K-Nearest Neighbors (KNN). As a result, it is demonstrated how a simple yet efficient approach can be used to detect events in social networks. Trying to overcome some of the challenges mentioned, as a third contribution, a semi-supervised learning approach is proposed using time series correlations. Experimental studies have shown that time series from different sub-regions with similar characteristics can be used to generalize knowledge and predict the occurrence of an event. Moreover, it is demonstrated that the proposed approach is a good alternative to the Gaussian Process Regression (GPR) used in the literature since the approach based on time series correlations provides good results using much less computing resources than GPR. In addition to the main contributions cited, the entire dataset used in this thesis with more than 180 thousand manually labeled Instagram posts is publicly available.
Com o avanço do uso de aplicativos baseados na internet e em tecnologias de dispositivos móveis, em particular, redes sociais on-line, muitos trabalhos foram propostos na literatura usando tais aplicativos como fonte de informação. As redes sociais on-line como o Instagram contam com mais de 700 milhões de usuários que, juntos,criam mais de 300 milhões de novos conteúdos por dia. Todos esses dados podem ser usados, por exemplo, para detectar eventos do mundo real. Tais eventos podem ser: um acidente de carro, um desastre natural, uma revolta, um caso político, entre outros. Para isso algoritmos precisam gerenciar grandes fluxos de dados, que estão em rápida mudança e são contituídos por textos, imagens e vídeos. Também envolve desafios como a falta de uma base de dados rotulada para análise da eficácia das técnicas aplicadas, que possa ser reutilizada por outros pesquisadores e a necessidade de uma abordagem que se adapte as constantes mudanças no fluxo de informações. No entanto, as abordagens existentes são muitas vezes limitadas ou não são adequadas para as novas fontes de dados, como o Instagram. Nesse sentido, este trabalho fornece contribuições na área de detecção de eventos para redes sociais online. Como primeira contribuição, uma revisão sobre como a tarefa de deteção de eventos vem sendo abordada por pesquisadores desde seu início ainda na década de 1990. A segunda contribuição é uma introdução sobre o comportamento e as características do volume de postagens no Instagram modeladas como séries temporais. Em seguida, um estudo comparativo de diferentes técnicas de regressão para séries temporais é conduzido aplicando algoritmos como Suporte Vector Regression (SVR), Multilayer Perceptron (MLP), Autoregressive Integrated Moving Averages (ARIMA), Classification and Regression Trees (CART) e K-Nearest Neighbors (KNN). Como resultado, demonstra-se como uma abordagem simples e eficiente pode ser usada para detectar eventos nas redes sociais. Tentando superar alguns dos desafios citados, como terceira contribuição, propõe-se uma abordagem de aprendizagem usando correlações em séries temporais. Estudos experimentais demonstraram que séries temporais de diferentes sub-regiões, porém, com caracteristicas semelhantes podem ser usadas para generalizar o conhecimento e prever a ocorrência de um evento. Além disso, é demonstrado que a abordagem proposta neste trabalho é uma boa alternativa em relação ao Gaussian Process Regression (GPR) utilizado na literatura, uma vez que a abordagem baseada em correlações de séries temporáis fornece bons resultados usando muito menos recursos computacioanis do que GPR. Finalmente, além das principais contribuições citadas, todo o conjunto de dados utilizado neste trabalho com mais de 180 mil posts do Instagram rotulados manualmente esta publicamente disponível.
Descrição
Citação