Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus

Ferreira, João Paulo da Cruz [UNIFESP]

Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus

dc.contributor.advisor	Janini, Luiz Mário Ramos [UNIFESP]
dc.contributor.advisorLattes	http://lattes.cnpq.br/5713863164263481
dc.contributor.author	Ferreira, João Paulo da Cruz [UNIFESP]
dc.contributor.authorLattes	http://lattes.cnpq.br/5636668555299108
dc.coverage.spatial	São Paulo
dc.date.accessioned	2024-10-07T18:28:51Z
dc.date.available	2024-10-07T18:28:51Z
dc.date.issued	2024-09-23
dc.description.abstract	Objetivo: A proposta deste trabalho é desenvolver um pipeline de bioinformática para identificação e clusterização de regiões conservadas em genomas de arbovírus, utilizando os arbovírus Dengue, Zika e Febre Amarela como modelos biológicos. A análise combinada da clusterização com a descoberta de motifs pode ajudar a avaliar regiões conservadas compartilhadas entre um ou mais vírus e regiões específicas de cada vírus, visando aplicar o pipeline em arboviroses co-circulantes como é o caso do DENV, ZIKV e YFV. Métodos: Foi utilizada a linguagem Python para desenvolvimento do pipeline, que inclui a ferramenta MEME para identificação das regiões conservadas em genomas virais e a matriz BLOSUM para a clusterização das sequências genômicas, empregando 3.000 sequências de genoma completo abrangendo as arboviroses DENV-1, -2, -3, -4, YFV e ZIKV. Essas sequências foram coletadas de dois repositórios, o Genbank e o Bioinformatics and Virus Discovery Resource Center. Resultados: O pipeline identificou regiões conservadas em grandes conjuntos de dados genômicos, com destaque para a eficácia do MEME e da matriz BLOSUM na análise de sequências virais. Para validar os achados, utilizou-se o Immune Epitope Database (IEDB), enriquecendo a compreensão da importância funcional dessas sequências. Os estudos abordaram 2.000 sequências genômicas do DENV no Estudo 1, sendo devidamente agrupadas pelo pipeline em 416 sequências de DENV-1, 431 de DENV-2, 489 de DENV-3 e 370 de DENV-4. No Estudo 2, foram 1.500 sequências genômicas de DENV (396), YFV (171) e ZIKV (310), agrupadas corretamente pela ferramenta. A metodologia, combinada com a programação em Python, permitiu uma análise detalhada das sequências, identificando, inclusive, regiões conservadas nas proteínas NS1, NS3, NS5, PrM e E. Conclusão: A ferramenta desenvolvida apresenta uma alternativa na análise bioinformática de genoma de arbovírus, oferecendo uma metodologia eficiente e simplificada para a identificação de regiões conservadas em genomas virais, o que contribui para o desenvolvimento de estratégias terapêuticas e preventivas.	pt_BR
dc.description.abstract	Objective: The aim of this work is to develop a bioinformatics pipeline for the identification and clustering of conserved regions in arbovirus genomes, using Dengue, Zika, and Yellow Fever viruses as biological models. The combined analysis of clustering with motif discovery can help assess conserved regions shared among one or more viruses and specific regions of each virus, aiming to apply the pipeline to co-circulating arboviruses such as DENV, ZIKV, and YFV. Methods: Python language was used to develop the pipeline, which includes the MEME tool for identifying conserved regions in viral genomes and the BLOSUM matrix for clustering genomic sequences, employing 3,000 complete genome sequences covering DENV-1, -2, -3, -4, YFV, and ZIKV arboviruses. These sequences were collected from two repositories, Genbank and the Bioinformatics and Virus Discovery Resource Center. Results: The pipeline identified conserved regions in large genomic datasets, with emphasis on the effectiveness of MEME and the BLOSUM matrix in analyzing viral sequences. To validate the findings, the Immune Epitope Database (IEDB) was used, enriching the understanding of the functional importance of these sequences. The studies addressed 2,000 genomic sequences of DENV in Study 1, properly grouped by the pipeline into 416 DENV-1 sequences, 431 DENV-2 sequences, 489 DENV-3 sequences, and 370 DENV-4 sequences. In Study 2, there were 1,500 genomic sequences of DENV (396), YFV (171), and ZIKV (310), correctly grouped by the tool. The methodology, combined with Python programming, allowed for a detailed analysis of the sequences, identifying conserved regions in NS1, NS3, NS5, PrM, and E proteins. Conclusion: The developed tool provides an alternative in the bioinformatic analysis of arbovirus genomes, offering an efficient and simplified methodology for identifying conserved regions in viral genomes, which contributes to the development of therapeutic and preventive strategies.	en
dc.emailadvisor.custom	janini@unifesp.br
dc.format.extent	65 f.
dc.identifier.citation	FERREIRA, João Paulo. Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus. 2024. 63 f. Dissertação (Mestrado em Infectologia) - Escola Paulista de Medicina, Universidade Federal de São Paulo (UNIFESP). São Paulo, 2024.	pt_BR
dc.identifier.uri	https://hdl.handle.net/11600/72181
dc.language	por
dc.publisher	Universidade Federal de São Paulo
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	Bioinformática	pt_BR
dc.subject	Arbovirose	pt_BR
dc.subject	Pipeline	pt_BR
dc.subject	Zika	pt_BR
dc.subject	Dengue	pt_BR
dc.subject	Febre amarela	pt_BR
dc.title	Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus	pt_BR
dc.type	info:eu-repo/semantics/masterThesis
unifesp.campus	Escola Paulista de Medicina (EPM)
unifesp.graduateProgram	Infectologia

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Dissertacao_João Paulo Ferreira.pdf
Tamanho:: 1.09 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 6.3 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

PPG - Infectologia