Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos

Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos

Alternative title Evaluation of Hadoop and MapReduce in increasing efficiency in biological databases
Author Yassef, Yasmin Google Scholar
Advisor Musa, Daniela Leal Google Scholar
Graduate program Não se aplica
Abstract "Os avanços tecnológicos da era digital vem contribuindo para o crescimento exponencial do volume de dados gerado pelo estilo de vida moderno, tornando relevante o estudo de Big Data e seus métodos e técnicas. A Bioinformática segue o mesmo comportamento, visto que as grandes revoluções tecnológicas na área vem facilitando a geração de diversos dados genômicos e biológicos, se tornando uma ramificação da área de Big Data. A manutenção e gerenciamento desse grande volume de dados muitas vezes extrapola a capacidade de processamento das tecnologias tradicionais, fazendo com que se torne necessário o estudo de novas tecnologias para processamento de dados, utilizando por exemplo sistemas distribuídos. Tendo em vista essas questões, o estudo framework Apache Hadoop para melhoria de performance de consultas a bases de dados biológicos em relação a bancos de dados relacionais, através da realização de consultas em dados de anotações de polimorfismo de nucleotídeo único em um sistema distribuído simulado. Para o volume e tipo de dados utilizado, verificou-se que o overhead operacional e dificuldade de gerenciamento do sistema distribuído acarretaram uma lentidão significativa de tempo de execução em relação a essas mesmas operações sendo realizadas num banco relacional tradicional (PostgreSQL). Porém, aumentando-se a escala do problema, foi possível avaliar que para o volume adequado de dados a aplicação de Hadoop se torna mais vantajosa do que bancos relacionais, mas é preciso avaliar as condições da aplicação em questão para escolher a tecnologia que possa trazer mais benefícios."

The technological advances of the digital age have contributed to the exponential growth of available data generated by the modern lifestyle, turning Big Data’s methods and techniques a relevant research area. Bioinformatics follows the same behavior since the technological revolutions which facilitated the generation of genomic and biological data, creating a new branch in the study of Big Data related especifically to its applications in biological datasets. Maintaining and managing these large datasets often exceeds the processing power of current technologies, making it necessary to research new data processing techniques, such as distributed systems. In regard to the aforementioned topics, the present study evaluated the use of the Apache Hadoop framework in improving the performance of queries to biological datasets in comparison to relational databases, by performing queries on single nucleotide polymorphism annotation data in a simulated distributed system. With the volume and type of data used, the operational overhead and management difficulty of the distributed system led to a significantly slower execution time compared to the same queries being performed in a traditional relational database (PostgreSQL). However, when increasing the size of the problem, it was possible to conclude that for the appropriate volume of data Hadoop can have better performance than relational databases, but the scenario of the specific application must be evaluated to choose the most suitable technology for the given problem.
Keywords Hadoop
MapReduce
Bancos de dados
Bioinformática
SNPs
xmlui.dri2xhtml.METS-1.0.item-coverage São José dos Campos
Language Portuguese
Date 2019-12-11
Knowledge area Ciência, engenharia e tecnologia de materiais
Publisher Universidade Federal de São Paulo
Extent 89 f.
Access rights Open access Open Access
Type Trabalho de conclusão de curso de graduação
URI https://repositorio.unifesp.br/handle/11600/51866

Show full item record




File

Name: TCC_Yasmin - DANIELA LEAL MUSA.pdf
Size: 1.039Mb
Format: PDF
Description: TCC Yasmin Yassef
Open file

This item appears in the following Collection(s)

Search


Browse

Statistics

My Account