Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de  dados biológicos

Yassef, Yasmin

Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos

Arquivos

TCC_Yasmin - DANIELA LEAL MUSA.pdf(1015.38 KB)

Data

2019-12-11

Autores

Yassef, Yasmin

Orientadores

Musa, Daniela Leal

Tipo

Trabalho de conclusão de curso

Resumo

"Os avanços tecnológicos da era digital vem contribuindo para o crescimento exponencial do volume de dados gerado pelo estilo de vida moderno, tornando relevante o estudo de Big Data e seus métodos e técnicas. A Bioinformática segue o mesmo comportamento, visto que as grandes revoluções tecnológicas na área vem facilitando a geração de diversos dados genômicos e biológicos, se tornando uma ramificação da área de Big Data. A manutenção e gerenciamento desse grande volume de dados muitas vezes extrapola a capacidade de processamento das tecnologias tradicionais, fazendo com que se torne necessário o estudo de novas tecnologias para processamento de dados, utilizando por exemplo sistemas distribuídos. Tendo em vista essas questões, o estudo framework Apache Hadoop para melhoria de performance de consultas a bases de dados biológicos em relação a bancos de dados relacionais, através da realização de consultas em dados de anotações de polimorfismo de nucleotídeo único em um sistema distribuído simulado. Para o volume e tipo de dados utilizado, verificou-se que o overhead operacional e dificuldade de gerenciamento do sistema distribuído acarretaram uma lentidão significativa de tempo de execução em relação a essas mesmas operações sendo realizadas num banco relacional tradicional (PostgreSQL). Porém, aumentando-se a escala do problema, foi possível avaliar que para o volume adequado de dados a aplicação de Hadoop se torna mais vantajosa do que bancos relacionais, mas é preciso avaliar as condições da aplicação em questão para escolher a tecnologia que possa trazer mais benefícios."
The technological advances of the digital age have contributed to the exponential growth of available data generated by the modern lifestyle, turning Big Data’s methods and techniques a relevant research area. Bioinformatics follows the same behavior since the technological revolutions which facilitated the generation of genomic and biological data, creating a new branch in the study of Big Data related especifically to its applications in biological datasets. Maintaining and managing these large datasets often exceeds the processing power of current technologies, making it necessary to research new data processing techniques, such as distributed systems. In regard to the aforementioned topics, the present study evaluated the use of the Apache Hadoop framework in improving the performance of queries to biological datasets in comparison to relational databases, by performing queries on single nucleotide polymorphism annotation data in a simulated distributed system. With the volume and type of data used, the operational overhead and management difficulty of the distributed system led to a significantly slower execution time compared to the same queries being performed in a traditional relational database (PostgreSQL). However, when increasing the size of the problem, it was possible to conclude that for the appropriate volume of data Hadoop can have better performance than relational databases, but the scenario of the specific application must be evaluated to choose the most suitable technology for the given problem.