Fernando Galán Galán

Profesor Titular de Medicina
Especialista en Medicina Interna
Experto en Miopatía Mitocondrial del Adulto
Fibromialgía y Síndrome de Fatiga crónica
BLOG

LA SECUENCIA COMPLETA DE UN GENOMA HUMANO HA TARDADO 21 AÑOS. SUS POSIBLES IMPLICACIONES

Publicado por en en Noticias
  • Tamaño de fuente: Mayor Menor
  • Visitas: 3742
  • Imprimir

BREVE INTRODUCCIÓN

El Proyecto del Genoma Humano anunció que habían completado el primer genoma humano en 2003, fue un logro trascendental. Pero vino con un problema: en realidad no pudieron reunir toda la información genética en el genoma. Había lagunas: regiones sin llenar, a menudo repetitivas, que eran demasiado confusas para unirlas.

  • Con los avances tecnológicos que podrían manejar estas secuencias repetitivas, los científicos finalmente llenaron esos vacíos en mayo de 2021, y el primer genoma humano completo se publicó oficialmente el 31 de marzo de 2022.

El genoma humano contiene aproximadamente 3.000 millones de nucleótidos y poco menos de 20.000 genes que codifican proteínas, aproximadamente el 1% de la longitud total del genoma. El 99% restante son secuencias de ADN no codificantes que no producen proteínas. Algunos son componentes reguladores que funcionan como un panel de control para controlar cómo funcionan otros genes.

los-humanos-tenemos-23-pares-de-cromosomas.jpg

Los humanos tenemos 23 pares de cromosomas - 22 pares de cromosomas llamados autosomas, numerados del 1 al 22-, y un par de cromosomas sexuales, X e Y. Cada progenitor contribuye con un cromosoma de cada uno de sus pares a la descendencia.

Estructura-ADN-nucleotidos-y-pares-de-bases.jpg

El ADN tiene dos cadenas que se enroscan y forman un espiral parecido a una escalera de caracol que se llama hélice. Los cuatro componentes básicos del ADN son los nucleótidos: adenina (A), timina (T), guanina (G) y citosina (C). Los nucleótidos se unen entre sí (A con T y G con C) mediante enlaces químicos y forman pares de bases que conectan las dos cadenas de ADN. Los genes son pequeñas piezas de ADN que tienen información genética específica.

El genoma humano contiene aproximadamente 3 mil millones de pares de bases, que residen en los 23 pares de cromosomas dentro del núcleo de todas nuestras células.

La unidad del ADN es el «par de bases» (formado por un nucleótido frente a otro, complementario), y a pesar de ser dos letras la información que portan es redundante. Basta una de las dos letras para deducir la complementaria. Por lo tanto tendemos a referirnos a ~3.000 millones de letras (o nucleótidos) como tamaño de nuestro genoma, cuando en realidad queremos decir ~3.000 millones de pares de bases (que, sensu stricto, corresponderían a 6.000 millones de letras, dado que cada par de bases contiene dos letras, dos nucléotidos).

Si consultamos la base de datos de Centro Nacional para la Información Biotecnológica (en inglés: National Center for Biotechnology Information [NCBI]) y sumamos el tamaño

  1. de cada uno de los 22 cromosomas autosómicos (del 1 al 22),
  2. más el tamaño de un cromosoma X,
  3. más el tamaño de un cromosoma Y,
  4. más el tamaño del ADN mitocondrial,
  5. más las secuencias de ADN que no han podido asignarse a ningún cromosoma (un 5,6% del total) a partir de la última versión del ensamblado del genoma humano de referencia (GRCh38.p13)

saldrá la cifra de 3.272,12 Mb (Megabases, o millones de pares de bases).

En realidad, el genoma humano de referencia actual son exactamente 3.272.116.950 pares de bases, es decir, corresponden a 6.544.233.900 letras totales o nucleótidos. Pero esta cifra, que usamos como genoma humano de referencia, de nuevo, no es el tamaño del ADN que tenemos en nuestras células.

  • El Centro Nacional para la Información Biotecnológica en inglés: National Center for Biotechnology Information [NCBI]) es parte de la Biblioteca Nacional de Medicina de Estados Unidos, una rama de los Institutos Nacionales de Salud. Está localizado en Bethesda (Maryland) y fue fundado el 4 de noviembre de 1988 con la misión de ser una importante fuente de información de biología molecular. Almacena y constantemente actualiza la información referente a secuencias genómicas en GenBank, un índice de artículos científicos referentes a biomedicina, biotecnología, bioquímica, genética y genómica en PubMed, una recopilación de enfermedades genéticas humanas en OMIM, además de otros datos biotecnológicos de relevancia en diversas bases de datos.

Desde entonces, los parches de secuencia han ido rellenando poco a poco los huecos del genoma humano. Y en 2021, el Consorcio Telomere-to-Telomere (T2T), un consorcio internacional de científicos que trabajan para completar un ensamblaje del genoma humano de principio a fin, anunció que finalmente se llenaron todos los vacíos restantes.

En 2019, dos científicos, Adam Phillippy, biólogo computacional del Instituto Nacional de Investigación del Genoma Humano, y Karen Miga, genetista de la Universidad de California, Santa Cruz, fundaron el Consorcio Telómero a Telómero (T2T), para completar el ocho por ciento final del genoma humano. Sus esfuerzos ahora han valido la pena.

Primer genoma humano completo se publicó oficialmente el 31 de marzo de 2022.

Cuando los científicos declararon que el Proyecto Genoma Humano estaba completo hace dos décadas, su anuncio fue un poco prematuro. Sin duda, se había alcanzado un hito, ya que investigadores de todo el mundo obtuvieron acceso a la secuencia de ADN de la mayoría de los genes que codifican proteínas en el genoma humano. Pero incluso después de 20 años de actualizaciones, el ocho por ciento de nuestro genoma seguía sin secuenciar, ni estudiar. Referidos por algunos como "ADN basura" sin una función clara, aproximadamente 151 millones de pares de bases de datos de secuencia dispersos por todo el genoma seguían siendo una caja negra.

Ahora, un gran equipo internacional dirigido por Adam Phillippy en los Institutos Nacionales de Salud ha revelado el ocho por ciento final del genoma humano en un artículo publicado en Science. En este 8% de nuestro genoma contienen más que “mera basura”. Dentro de los nuevos datos hay regiones misteriosas de ADN no codificante que no producen proteínas, pero que aún juegan un papel crucial en muchas funciones celulares.

Estas regiones cruciales que representan alrededor del 8 % del genoma humano habían permanecido ocultas a los científicos durante más de 20 años, debido a las limitaciones de las tecnologías de secuenciación del ADN.

Pero el avance en las tecnologías de secuenciación de ADN de lectura larga - capaz de leer secuencias más largas de miles de nucleótidos de longitud, como la secuenciación de nanoporos, fueron herramientas esenciales para el Consorcio T2T. Dos conjuntos de datos de secuenciación de lectura larga: lecturas de alta fidelidad (datos de alta fidelidad de los sistemas PacBio) y lecturas extremadamente largas que habitualmente alcanzan longitudes superiores a 100.000 pares de bases (datos ultralargos de dispositivos Oxford Nanopore), permitieron a los investigadores de T2T abarcar regiones repetitivas y desarrollar estrategias para garantizar que el montaje fuera muy preciso.

La tecnología de secuenciación mediante nanoporos está basada en el principio de leer directamente el fragmento de ADN a secuenciar mediante el paso de dicha molécula única por un nanoporo, a la vez que se va midiendo los efectos, a nivel iónico y eléctrico, que supone el avance del ADN.

Nano-po-porina-bacteriana-acoplada-a-una-DNA-helicasa.jpg

La cámara de secuenciación está formada por una membrana de un polímero sintético con miles de nanoporos, cada uno formado por una porina bacteriana acoplada a una DNA helicasa. La DNA helicasa desenrolla a la molécula de DNA y una de las dos hebras se desliza por el interior del poro, donde una molécula adaptadora regula la velocidad del proceso

Esto fue posible gracias a una tecnología de secuenciación mejorada capaz de leer secuencias más largas de miles de nucleótidos de longitud.

Así el nuevo genoma de referencia, llamado T2T-CHM13, agrega casi 200 millones de pares de bases de nuevas secuencias de ADN, incluidos 99 genes que probablemente codifiquen proteínas y casi 2.000 genes candidatos que necesitan más estudio. También corrige miles de errores estructurales en la secuencia de referencia actual.

Pero a partir de ese ocho por ciento faltante, ahora se está obteniendo una comprensión completamente nueva de cómo se dividen las células, lo que permite estudiar una serie de enfermedades que se habían podido resolver antes.

En los artículos que acompañan al trabajo central, investigadores del consorcio T2T describen los patrones epigenéticos identificados en el genoma completo, así como el análisis de grandes duplicaciones y su variación en el genoma. Estos estudios ofrecen las primeras evidencias del potencial de T2T-CHM13 para conocer el funcionamiento del genoma y mejorar el análisis de la variación genética humana. Y solo son la punta del iceberg.

Por ejemplo, T2T-CHM13 ofrece, por primera vez, la posibilidad de analizar en detalle las regiones cercanas a los centrómeros, estructuras de los cromosomas que coordinan su correcta separación durante la división celular. Los primeros análisis apuntan a una fuerte relación entre la posición del centrómero en el cromosoma y la evolución del ADN que lo rodea. Además, al comparar con genomas disponibles de diferentes poblaciones, los investigadores han encontrado que existe gran variación genética en estas regiones.

El nuevo genoma de referencia T2T complementará el genoma de referencia humano estándar, conocido como Genome Reference Consortium build 38 (GRCh38), que tuvo su origen en el Proyecto Genoma Humano financiado con fondos públicos y se ha actualizado continuamente desde el primer borrador en 2000.

sequence-the-first-92.jpg

Llevó casi el doble de tiempo – 20 años - terminar el último 8% del genoma humano que secuenciar el primer 92% - 10 años- . Las nuevas tecnologías computacionales y de laboratorio finalmente permitieron superar obstáculos como secuencias de ADN altamente repetitivas para llenar los vacíos restantes.

La secuencia del genoma T2T, que representa el genoma CHM13 terminado más el cromosoma Y T2T recientemente terminado (CHM13 incluye un cromosoma X pero no un cromosoma Y), es ahora un nuevo genoma de referencia en el Explorador de genomas de UCSC (Universidad de California Santa Cruz). La secuencia T2T está completamente anotada en el navegador, lo que proporciona una forma eficiente para que los científicos accedan y visualicen una gran cantidad de información asociada con los genes y otros elementos del genoma.

POSIBLES IMPLICACIONES Y APLICACIONES MÉDICAS DE LA SECUENCIACIÓN COMPLETA DE GENOMA HUMANO

Adam Phillippy  ha dicho que espera que dentro de los próximos 10 años, la secuenciación de los genomas de las personas pueda convertirse en una prueba médica de rutina que cueste menos de $ 1,000. Su equipo continúa trabajando hacia ese objetivo.

  • Permitirán identificar nuevas categorías de variantes para estudios de asociación genética y diagnóstico clínico más rutinarios más allá de las variantes evaluadas actualmente, como variantes de un solo nucleótido, variantes de número de copias y grandes aberraciones cromosómicas. Por ejemplo, podremos identificar variantes estructurales complejas, recuentos alterados de repeticiones cortas en tándem, inversiones y cambios en el número de copias de genes duplicados con mayor precisión en genomas de pacientes.
  • Avances en el diagnóstico y tratamiento de cánceres, trastornos del desarrollo, infertilidad y muchas enfermedades impulsadas por cambios genéticos.
  • La primera aplicación será que habrá menos errores en las pruebas e investigaciones genéticas clínicas actuales.
  • Es probable que los científicos identifiquen la variación genética que contribuye tanto a enfermedades raras como comunes en algunas de estas regiones que antes estaban ocultas, lo que podría allanar el camino para nuevos diagnósticos y terapias

CONCLUSIONES

  1. Un primer genoma humano completo ha sido publicado oficialmente el 31 de marzo de 2022.
  2. El nuevo genoma de referencia, llamado T2T-CHM13, agrega casi 200 millones de pares de bases de nuevas secuencias de ADN, incluidos 99 genes que probablemente codifiquen proteínas y casi 2.000 genes candidatos que necesitan más estudio
  3. El 8 % del genoma humano había permanecido oculto a los científicos debido a las limitaciones de las tecnologías de secuenciación del ADN. Este 8% de nuestro genoma contiene más que “mera basura”. Dentro de los nuevos datos hay regiones misteriosas de ADN no codificante que no producen proteínas, pero que aún juegan un papel crucial en muchas funciones celulares
  4. El avance en las tecnologías de secuenciación de ADN de lectura larga - capaz de leer secuencias más largas de miles de nucleótidos de longitud-, y la secuenciación de nanoporos, han sido herramientas esenciales para el Consorcio T2T
  5. La primera aplicación será que habrá menos errores en las pruebas e investigaciones genéticas clínicas actuales
  6. Dentro de los próximos 10 años, la secuenciación de los genomas de las personas pueda convertirse en una prueba médica de rutina que cueste menos de $ 1,000.

REFERENCIAS

Nurk S, Koren S, Rhie A, Rautiainen M, Bzikadze AV, Mikheenko A, Vollger MR, Altemose N, Uralsky L, Gershman A, Aganezov S, Hoyt SJ, Diekhans M, Logsdon GA, Alonge M, Antonarakis SE, Borchers M, Bouffard GG, Brooks SY, Caldas GV, Chen NC, Cheng H, Chin CS, Chow W, de Lima LG, Dishuck PC, Durbin R, Dvorkina T, Fiddes IT, Formenti G, Fulton RS, Fungtammasan A, Garrison E, Grady PGS, Graves-Lindsay TA, Hall IM, Hansen NF, Hartley GA, Haukness M, Howe K, Hunkapiller MW, Jain C, Jain M, Jarvis ED, Kerpedjiev P, Kirsche M, Kolmogorov M, Korlach J, Kremitzki M, Li H, Maduro VV, Marschall T, McCartney AM, McDaniel J, Miller DE, Mullikin JC, Myers EW, Olson ND, Paten B, Peluso P, Pevzner PA, Porubsky D, Potapova T, Rogaev EI, Rosenfeld JA, Salzberg SL, Schneider VA, Sedlazeck FJ, Shafin K, Shew CJ, Shumate A, Sims Y, Smit AFA, Soto DC, Sović I, Storer JM, Streets A, Sullivan BA, Thibaud-Nissen F, Torrance J, Wagner J, Walenz BP, Wenger A, Wood JMD, Xiao C, Yan SM, Young AC, Zarate S, Surti U, McCoy RC, Dennis MY, Alexandrov IA, Gerton JL, O'Neill RJ, Timp W, Zook JM, Schatz MC, Eichler EE, Miga KH, Phillippy AM. The complete sequence of a human genome. Science. 2022 Apr;376(6588):44-53. doi: 10.1126/science.abj6987. Epub 2022 Mar 31. PMID: 35357919.

PROF. DR. FERNANDO GALAN