Algoritmo para Predição de Seleção de Resistência Aos Inibidores de Ns5a do Vírus da Hepatite C

No Thumbnail Available
Date
2020-12-14
Authors
Almeida, Douglas De Andrade De [UNIFESP]
relationships.isAdvisorOf
Janini, Luiz Mario Ramos [UNIFESP]
item.page.type-of
Dissertação de mestrado
Journal Title
Journal ISSN
Volume Title
Abstract
Summary Objective: To develop an algorithm that, based on the genetic sequence of the HCV infecting virus, can estimate which are the best therapeutic treatments with the least probability of resistance selection for NS5A inhibitors. Method: A phased algorithm was created to select attributes relevant to the study and further development of a machine learning model. The attributes used in this algorithm are the population frequency of the resistance codons, the HCV codon usage and the genetic barrier between the patient's codons and the resistance codons. Results: It was possible to cross-check information from the patient's infectious virus, with information from the medical literature to structure a database with predictive variables and a response variable related to the presence or absence of drug resistance. The model was able to predict with an AUC> 0.99 which characteristics of the virus cause resistance in certain drugs. Conclusion: Codon Usage parameters, population prevalence of codons and genetic barrier, proved to be good predictors of resistance. However, the limitation of the data source implies the possibility of overfitting, which can only be discarded and / or corrected with further studies in the area using similar methodology.
Resumo Objetivo: Desenvolver um algoritmo que, a partir da sequência genética do vírus infectante HCV, se possam estimar quais são os melhores tratamentos terapêuticos com a menor probabilidade de seleção de resistência para os inibidores de NS5A. Método: Foi criado um algoritmo faseado para seleção de atributos relevantes ao estudo e posterior desenvolvimento de um modelo de machine learning. Os atributos utilizadas neste algoritmo são a frequência populacional dos códons de resistência, o codon usage do HCV e a barreira genética entre os códons do paciente e os códons de resistência. Resultados: Foi possível realizar o cruzamento de informações do vírus infectante do paciente, com as informações provenientes da literatura médica para estruturar um banco de dados com variáveis preditores e uma variável resposta relacionada a presença ou não de resistência aos medicamentos. O modelo conseguiu predizer com um AUC > 0.99 quais características do vírus causam resistência em determinados medicamentos. Conclusão: Os parâmetros de Codon Usage, prevalência populacional de códons e barreira genética, se demonstraram bons preditores de resistência. Entretanto, a limitação da fonte de dados implica na possibilidade de overfitting, que só pode ser descartado e/ou corrigido com mais estudos na área utilizando metodologia similar.
Description
Citation