Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus

dc.contributor.advisorJanini, Luiz Mário Ramos [UNIFESP]
dc.contributor.advisorLatteshttp://lattes.cnpq.br/5713863164263481
dc.contributor.authorFerreira, João Paulo da Cruz [UNIFESP]
dc.contributor.authorLatteshttp://lattes.cnpq.br/5636668555299108
dc.coverage.spatialSão Paulo
dc.date.accessioned2024-10-07T18:28:51Z
dc.date.available2024-10-07T18:28:51Z
dc.date.issued2024-09-23
dc.description.abstractObjetivo: A proposta deste trabalho é desenvolver um pipeline de bioinformática para identificação e clusterização de regiões conservadas em genomas de arbovírus, utilizando os arbovírus Dengue, Zika e Febre Amarela como modelos biológicos. A análise combinada da clusterização com a descoberta de motifs pode ajudar a avaliar regiões conservadas compartilhadas entre um ou mais vírus e regiões específicas de cada vírus, visando aplicar o pipeline em arboviroses co-circulantes como é o caso do DENV, ZIKV e YFV. Métodos: Foi utilizada a linguagem Python para desenvolvimento do pipeline, que inclui a ferramenta MEME para identificação das regiões conservadas em genomas virais e a matriz BLOSUM para a clusterização das sequências genômicas, empregando 3.000 sequências de genoma completo abrangendo as arboviroses DENV-1, -2, -3, -4, YFV e ZIKV. Essas sequências foram coletadas de dois repositórios, o Genbank e o Bioinformatics and Virus Discovery Resource Center. Resultados: O pipeline identificou regiões conservadas em grandes conjuntos de dados genômicos, com destaque para a eficácia do MEME e da matriz BLOSUM na análise de sequências virais. Para validar os achados, utilizou-se o Immune Epitope Database (IEDB), enriquecendo a compreensão da importância funcional dessas sequências. Os estudos abordaram 2.000 sequências genômicas do DENV no Estudo 1, sendo devidamente agrupadas pelo pipeline em 416 sequências de DENV-1, 431 de DENV-2, 489 de DENV-3 e 370 de DENV-4. No Estudo 2, foram 1.500 sequências genômicas de DENV (396), YFV (171) e ZIKV (310), agrupadas corretamente pela ferramenta. A metodologia, combinada com a programação em Python, permitiu uma análise detalhada das sequências, identificando, inclusive, regiões conservadas nas proteínas NS1, NS3, NS5, PrM e E. Conclusão: A ferramenta desenvolvida apresenta uma alternativa na análise bioinformática de genoma de arbovírus, oferecendo uma metodologia eficiente e simplificada para a identificação de regiões conservadas em genomas virais, o que contribui para o desenvolvimento de estratégias terapêuticas e preventivas. pt_BR
dc.description.abstractObjective: The aim of this work is to develop a bioinformatics pipeline for the identification and clustering of conserved regions in arbovirus genomes, using Dengue, Zika, and Yellow Fever viruses as biological models. The combined analysis of clustering with motif discovery can help assess conserved regions shared among one or more viruses and specific regions of each virus, aiming to apply the pipeline to co-circulating arboviruses such as DENV, ZIKV, and YFV. Methods: Python language was used to develop the pipeline, which includes the MEME tool for identifying conserved regions in viral genomes and the BLOSUM matrix for clustering genomic sequences, employing 3,000 complete genome sequences covering DENV-1, -2, -3, -4, YFV, and ZIKV arboviruses. These sequences were collected from two repositories, Genbank and the Bioinformatics and Virus Discovery Resource Center. Results: The pipeline identified conserved regions in large genomic datasets, with emphasis on the effectiveness of MEME and the BLOSUM matrix in analyzing viral sequences. To validate the findings, the Immune Epitope Database (IEDB) was used, enriching the understanding of the functional importance of these sequences. The studies addressed 2,000 genomic sequences of DENV in Study 1, properly grouped by the pipeline into 416 DENV-1 sequences, 431 DENV-2 sequences, 489 DENV-3 sequences, and 370 DENV-4 sequences. In Study 2, there were 1,500 genomic sequences of DENV (396), YFV (171), and ZIKV (310), correctly grouped by the tool. The methodology, combined with Python programming, allowed for a detailed analysis of the sequences, identifying conserved regions in NS1, NS3, NS5, PrM, and E proteins. Conclusion: The developed tool provides an alternative in the bioinformatic analysis of arbovirus genomes, offering an efficient and simplified methodology for identifying conserved regions in viral genomes, which contributes to the development of therapeutic and preventive strategies.en
dc.emailadvisor.customjanini@unifesp.br
dc.format.extent65 f.
dc.identifier.citationFERREIRA, João Paulo. Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus. 2024. 63 f. Dissertação (Mestrado em Infectologia) - Escola Paulista de Medicina, Universidade Federal de São Paulo (UNIFESP). São Paulo, 2024.pt_BR
dc.identifier.urihttps://hdl.handle.net/11600/72181
dc.languagepor
dc.publisherUniversidade Federal de São Paulo
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectBioinformáticapt_BR
dc.subjectArbovirosept_BR
dc.subjectPipelinept_BR
dc.subjectZikapt_BR
dc.subjectDenguept_BR
dc.subjectFebre amarelapt_BR
dc.titlePipeline de busca baseada em agrupamento para regiões conservadas em arbovíruspt_BR
dc.typeinfo:eu-repo/semantics/masterThesis
unifesp.campusEscola Paulista de Medicina (EPM)
unifesp.graduateProgramInfectologia
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertacao_João Paulo Ferreira.pdf
Tamanho:
1.09 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
6.3 KB
Formato:
Item-specific license agreed upon to submission
Descrição: