Análise da adaptação dos códons como uma ferramenta para predizer a abundância de uma proteína e sua correlação com o ruído na expressão gênica

No Thumbnail Available
Date
2007
Authors
Ferreira, Renata Carmona [UNIFESP]
relationships.isAdvisorOf
Briones, Marcelo Ribeiro da Silva [UNIFESP]
item.page.type-of
Tese de doutorado
Journal Title
Journal ISSN
Volume Title
Abstract
Os índices que medem adaptação dos códons são amplamente utilizados para predizer o nível de expressão de um gene. Para verificar se: (i) o índice de adaptação dos códons (CAI) pode ser utilizado para ordenar e caracterizar genes hipotéticos em seqüências de genomas completos; (ii) a variação estocástica da expressão gênica entre as células (ruído) pode ser utilizada como um marcador quantitativo para diferenciar genes essenciais de não essenciais e (iii) qual a correlação existente entre o ruído e o CAI, subdividiu-se esse trabalho em duas partes. Na primeira parte analisei os índices de padrão de uso dos códons como preditores do nível de expressão de genes hipotéticos da levedura Candida albicans. Foram selecionados 744 genes hipotéticos que satisfazem três características simultaneamente sendo elas: (i) ORFs maiores que 500bp; (ii) fases abertas de leitura sem sobreposição com outras ORFs e (iii) ORFs com similaridade ≥ 60% com genes de Saccharomyces cerevisiae e Schizosaccharomyces pombe. O padrão de uso dos códons para os genes hipotéticos apresenta uma grande variedade nos diferentes genes selecionados, porém nota-se uma tendência a um baixo e médio nível de expressão independente do índice analisado. Os valores de CAI variam entre 0,044 e 0,540 com média de 0,170 (± 0,051). ORFs com baixo nível de expressão e potencialmente essenciais são ótimas candidatas para serem alvos para drogas potenciais. Essas características são importantes uma vez que um baixo nível de expressão implicaria numa menor dosagem da droga, e o gene de ser potencialmente essencial uma vez que se deseja a morte do fungo causando a infecção. Baseando-se nessas duas características selecionou-se duas ORFs hipotéticas para estudo de função: CaYdr187c (CAI = 0,084) e CaYlr339c (CAI = 0,088). A ORF CaYdr187c é uma possível proteína do envelope celular, com ontologia de resposta imune; e apresenta tanto peptídeo sinal quanto regiões transmembrana. De acordo com o RT-PCR esse gene é transcrito apenas na fase de levedura do fungo. A ORF CaYlr339c é uma possível proteína relacionada com a tradução, com ontologia de resposta imune; e não apresenta nem peptídeo sinal e nem regiões transmembrana. De acordo com o RT-PCR esse gene é transcrito tanto na fase de levedura quanto na de hifa do fungo. Na segunda parte, analisei a distribuição do ruído transcricional e sua possível utilização como classificador para a essencialidade dos genes. Para se estudar as distribuições estatísticas do ruído temporal no sistema eucariótico modelo Saccharomyces cerevisiae, nós analisamos dados de microarray correspondendo à um ciclo celular para 6.200 genes. Nós descobrimos que o ruído temporal segue uma distribuição log-normal com invariância de escala nos níveis genômico, cromossômico e sub-cromossômico. A correlação do ruído temporal com o índice de adaptação dos códons sugere que pelo menos 70% dos genes codificadores de proteínas são o centro de minimização de ruído do genoma. Nós propusemos um modelo matemático da dinâmica da expressão de um único gene, utilizando a teoria de operadores, o qual revela condições rígidas para a variabilidade do ruído e uma estratégia possível para a minimização / otimização do ruído em nível genômico. Nosso modelo e dados mostram que o ruído mínimo não corresponde a genes obedecendo a uma dinâmica estritamente determinística. A estratégia natural de minimização do ruído consiste em igualar o ruído (η) com a média do valor absoluto da variação relativa do nível de expressão (α). Nós hipotetizamos que o padrão do ruído temporal é uma propriedade emergente do genoma e mostra como a dinâmica da expressão gênica pode estar relacionada com a organização cromossômica. Os índices utilizados neste estudo foram validados como preditores do nível de expressão, caso do CAI para a Candida albicans, e de essencialidade, caso do ruído da expressão gênica. O índice de adaptação dos códons (CAI) é válido como preditor do nível de ruído bem como da dinâmica da expressão gênica.
The indices that measure the codon adaptation are widely used for predicting the expression level of a gene. To verify if: (i) the codon adaptation index (CAI) can be used to characterize hypothetical genes in complete genomes; (ii) the variation of gene expression within cells (noise) can be used as a quantitative marker for essentiality and (iii) what’s the correlation between noise and CAI, this work is divided in two parts. In first section we analyzed the indices that measure the codon adaptation as predictors of the expression level in hypothetical genes in the yeast Candida albicans. We selected 744 hypothetical ORFs that satisfied three characteristic: (i) ORFs longer than 500bp (bp); (ii) open reading frames not superposed with other ORFs and (iii) ORFs with similarity ≥ 60% with Saccharomyces cerevisiae and Schizosaccharomyces pombe genes. The codon usage for the hypothetical genes vary a lot between the selected ORFs, regardless the index. The CAI vary between 0,044 and 0,540 with average 0,170 (±0,051). ORFs with low expression level and that are possibly essential are good candidates to be new drug targets. Based on this two characteristics we selected two hypothetical ORFs for function studies: CaYdr187c (CAI=0,084) and CaYlr339c (CAI=0,088). The ORF CaYdr187c is a possible cell envelope protein, with gene ontology of immune response, and prediction of both signal peptide and transmembrane regions. Based on the RT-PCR this gene is expressed only in the yeast fase. The ORF CaYlr339c is a possible protein involved in translation, with gene ontology of immune response, and no prediction of both signal peptide and transmembrane regions. Based on the RT-PCR this gene is expressed both in the yeast and hypha fases. In the second section, I analyzed the transcription noise and its possible use as a classifier of gene essentiality. The analysis of transcriptional temporal noise could be an interesting means to study gene expression dynamics and stochasticity in eukaryotes. To study the statistical distributions of temporal noise in the eukaryotic model system Saccharomyces cerevisiae, we analyzed microarray data corresponding to one cell cycle for 6,200 genes. We found that the temporal noise follows a lognormal distribution with scale invariance at the genome, chromosomal and sub-chromosomal levels. Correlation of temporal noise with the codon adaptation index suggests that at least 70% of all protein-coding genes are a noise minimization core of the genome. Accordingly, a mathematical model of individual gene expression dynamics was proposed, using an operator theoretical approach, which reveals strict conditions for noise variability and a possible global noise minimization/optimization strategy at the genome level. Our model and data show that minimal noise does not correspond to genes obeying a strictly deterministic dynamics. The natural strategy of minimization consists in equating the mean of the absolute value of the relative variation of the expression level (α) with noise (η). We hypothesize that the temporal noise pattern is an emergent property of the genome and shows how the dynamics of gene expression could be related to chromosomal organization.
Description
Citation
FERREIRA, Renata Carmona. Análise da adaptação dos códons como uma ferramenta para predizer a abundância de uma proteína e sua correlação com o ruído na expressão gênica. 2007. 244 f. Tese (Doutorado em Ciências) - Escola Paulista de Medicina, Universidade Federal de São Paulo (UNIFESP), São Paulo, 2007.