Comparação de Métodos de Active-Querying e Agrupamento com Restrição Aplicados a Dados de RNA-seq de Câncer de Mama

Data
2023-07-12
Tipo
Trabalho de conclusão de curso
Título da Revista
ISSN da Revista
Título de Volume
Resumo
O câncer de mama é uma das principais causas de morte por câncer em mulheres, sendo o tipo mais comum de câncer entre elas. Este projeto tem como objetivo aplicar técnicas de computação e análise de dados na área da bioinformática para identificar os subtipos moleculares do câncer de mama. Para isso, foram utilizados os algoritmos de agrupamento COBRAS e Min-Max em um conjunto de dados de expressão gênica de pacientes com câncer de mama, com o intuito de comparar seus desempenhos. Os resultados mostraram que o algoritmo COBRAS obteve um desempenho superior em relação ao Min-Max, apresentando melhores índices de concordância (ARI e NMI) e sendo capaz de identificar os subtipos moleculares com sucesso. Além disso, o COBRAS mostrou-se eficiente no agrupamento de dados classificados como Tumor e Tecido Normal. Por outro lado, o Min-Max enfrentou dificuldades na identificação precisa dos subtipos, além de demandar um tempo de execução significativamente maior. Esses resultados ressaltam a importância do uso de abordagens baseadas em restrições de similaridade, como o COBRAS, para lidar com a complexidade e sobreposição dos subtipos moleculares em conjuntos de dados de expressão gênica de câncer de mama. O conhecimento mais preciso dos subtipos moleculares é fundamental para o desenvolvimento de estratégias de diagnóstico e tratamento mais eficazes, com potencial impacto positivo na luta contra o câncer de mama.
Breast cancer is one of the leading causes of cancer-related death in women, and it is the most common type of cancer among them. This project aims to apply computational and data analysis techniques in the field of bioinformatics to identify molecular subtypes of breast cancer. The COBRAS and Min-Max clustering algorithms were employed on a gene expression dataset of breast cancer patients to compare their performances. The results showed that the COBRAS algorithm outperformed Min-Max, demonstrating better agreement indices (ARI and NMI) and successfully identifying the molecular subtypes. Additionally, COBRAS exhibited efficiency in clustering data classified as Tumor and Normal Tissue. On the other hand, Min-Max faced difficulties in accurately identifying the subtypes and required significantly longer execution time. These findings emphasize the importance of utilizing similarity-constrained approaches, such as COBRAS, to handle the complexity and overlapping nature of molecular subtypes in breast cancer gene expression datasets. Accurate knowledge of molecular subtypes is crucial for the development of more effective diagnostic and treatment strategies, with the potential for a positive impact in the fight against breast cancer.
Descrição
Citação
Pré-visualização PDF(s)