Descifran la compleja formación de 'palabras' del genoma

Un nuevo estudio del Instituto Karolinska (Suecia) muestra que la «gramática» del código genético humano es más compleja incluso que la de las lenguas habladas más intrincadamente construidas del mundo.

Los resultados, publicados en la revista Nature, explican por qué el genoma humano es tan difícil de descifrar -y contribuye a una mayor comprensión de cómo afectan las diferencias genéticas al riesgo de desarrollar enfermedades a nivel individual.

«El genoma contiene toda la información necesaria para construir y mantener un organismo, pero también los detalles del riesgo de un individuo para desarrollar enfermedades como la diabetes, las enfermedades cardíacas y el cáncer», dice el líder y autor del estudio Arttu Jolma, estudiante de doctorado en el Departamento de Biociencias y Nutrición, en la nota de prensa del Instituto.

«Si podemos mejorar nuestra capacidad para leer y entender el genoma humano, también seremos capaces de hacer un mejor uso de la información genómica en medicina.»

La secuenciación del genoma humano en el año 2000 reveló cómo se ordenan los 3 mil millones de letras A, C, G y T que forman el genoma humano. Sin embargo, saber sólo el orden de las letras no es suficiente para traducir los descubrimientos genómicos en prestaciones médicas; también hay que entender lo que significan las secuencias de letras. En otras palabras, es necesario identificar las «palabras» y la «gramática» de la lengua del genoma.

Las células de nuestro cuerpo tienen genomas casi idénticos, pero difieren entre sí debido a que los diferentes genes se activan (expresan) en diferentes tipos de células. Cada gen tiene una región reguladora que contiene las instrucciones que controlan cuándo y dónde se expresa el gen. Este código de regulación de genes es leído por proteínas llamadas factores de transcripción que se unen a palabras de ADN específicas y aumentan o disminuyen la expresión del gen asociado.

Palabras compuestas

Bajo la supervisión del profesor Jussi Taipale, los investigadores del Instituto Karolinska habían identificado previamente la mayoría de las palabras de ADN reconocidas por factores de transcripción individuales.

Sin embargo, al igual que en un lenguaje humano natural, las palabras de ADN pueden unirse para formar palabras compuestas que son leídas por múltiples factores de transcripción, y el mecanismo por el cual tales palabras compuestas se leen no había sido examinado anteriormente.

Por lo tanto, en su reciente estudio en la revista Nature, el equipo de Taipale examina las preferencias de unión de parejas de factores de transcripción, y cartografía sistemáticamente las palabras de ADN compuestos que forman.

Su análisis revela que la gramática del código genético es mucho más compleja incluso que la de los más complejos lenguajes humanos. En lugar de que simplemente simplemente se unan dos palabras mediante la supresión de un espacio, las palabras individuales que se unen entre sí en palabras compuestas de ADN se alteran, dando lugar a un gran número de palabras completamente nuevas.

«Nuestro estudio identificó muchas de estas palabras, aumentando la comprensión de cómo están regulados los genes tanto en el desarrollo normal como en el cáncer», dice Arttu Jolma. «Los resultados allanan el camino para descifrar el código genético que controla la expresión de los genes.»

Referencia bibliográfica:

Arttu Jolma, Yimeng Yin, Kazuhiro R. Nitta, Kashyap Dave, Alexander Popov, Minna Taipale, Martin Enge, Teemu Kivioja, Ekaterina Morgunova, Jussi Taipale: DNA-dependent formation of transcription factor pairs alters their binding specificity. Nature (2015). DOI: 10.1038/nature15518.