Tendencias21
La genómica será el mundo más amplio del 'big data'

La genómica será el mundo más amplio del 'big data'

Ni YouTube, ni Facebook, ni la astronomía. El campo más grande del ‘big data’ será la genómica. Así lo creen científicos de EE.UU., que han estimado la evolución futura, hasta 2025, de distintos ámbitos que mueven trillones de datos. Además, otro grupo de científicos ha creado una plataforma que permite analizar rápidamente datos genómicos. Por Carlos Gómez Abajo.

La genómica será el mundo más amplio del 'big data' ¿Quién está a punto de convertirse en el mayor animal del bosque Big Data? Un grupo de expertos en matemáticas y computación han llegado a lo que, dicen, es una respuesta clara. No es YouTube o Twitter, redes sociales que engullen cantidades impresionantes de ancho de banda. Ni tampoco la astronomía ni la física de partículas, dos de las ciencias de la más alta tecnología que han etado durante mucho tiempo a la vanguardia de la generación y procesamiento de datos.

No, la bestia alfa del bosque Big Data, dicen los expertos en PLoS Biology, resulta ser la genómica -una ciencia que no existía hace 15 años y sólo ahora está empezando a salir de los estudios de campo para generar más bytes electrónicos por año que ningún otro ámbito.

Reconocer esta realidad, dicen, es el primero paso de un gran desafío: encontrar la manera de capturar, almacenar, procesar e interpretar toda esa información biológica codificada en el genoma, transformada en ceros y unos sin sentido.

«Durante mucho tiempo, la gente ha utilizado el adjetivo «astronómico» para hablar de las cosas que son realmente, realmente enormes», dice Michael Schatz, profesor asociado del Centro de Biología Cuantitativa Simons del Cold Spring Harbor Laboratory (CSHL, Nueva York, EE.UU.) y co-autor del artículo de PLoS, en la nota de prensa del centro. «Pero al señalar el increíble ritmo de crecimiento de la generación de datos en las ciencias biológicas, mis colegas y yo creemos que podríamos tener que empezar a llamar a las cosas verdaderamente inmensas «genómicas».

Todos los campos con los que se compara, de las redes sociales a Internet o la astronomía, están generando enormes cantidades de datos electrónicos – del orden de decenas a cientos de petabytes anuales. Un petabyte son mil billones de bytes – 10 seguido de 15 ceros; es 1.000 bytes veces más que un terabyte, la cantidad de almacenamiento que podría tener en su ordenador personal.

Y, dice el equipo -que también se compone de una serie de expertos en datos de la Universidad de Illinois en Champaign-Urbana-, todos los campos están en rápidas curva de crecimiento. YouTube genera la mayor cantidad de datos en este momento, alrededor de 100 petabytes al año.

Pero la genómica no se queda atrás y está creciendo mucho más rápidamente. Al ritmo actual, la cantidad de datos de genómica producidos diariamente se duplicará cada 7 meses. En 2025, esa cifra oscilará entre 2 y 40 exabytes por año, estima el equipo, en función de la tasa de duplicación. Un exabyte es el equivalente a 1.000 petabytes, aproximadamente un millón de veces más datos de los que puede almacenar usted en su ordenador personal.

La genómica

Schatz y sus colegas describen la genómica como una «bestia de cuatro cabezas.» Se refieren a los problemas individuales de adquisición de datos, almacenamiento, distribución y análisis. Como los datos que fluyen a través de Internet, los datos biológicos que son la materia prima de la genómica están muy distribuidos. Eso significa que se generan y consumen en muchos lugares. A diferencia de los datos de Internet, sin embargo, que tienen un formato de acuerdo con unos protocolos estándar, los datos genómicos se compila en muchos formatos diferentes, un hecho que pone en peligro su inteligibilidad y utilidad a nivel global.

Este problema crece en importancia a medida que aumenta la cantidad de datos. Como explica Schatz, gran parte del gran torrente de datos de biología tendrá forma de secuencias del genoma humano, así como la información médica relacionada que también depende de la tecnología de secuenciación.

Si todos los datos de secuencias humanas generados hasta ahora fueron puestos en un solo lugar -cerca de 250.000 secuencias- requerirían unos 25 petabytes de espacio de almacenamiento. Ese es un problema manejable, dice Schatz. Pero en 2025, el equipo espera que 1.000 millones de personas tengan sus genomas completos secuenciados (en su mayoría, gente de naciones relativamente ricas). Esto plantea un problema de almacenamiento de nivel exabyte.

En algún momento, las secuencias completas pueden no tener que ser almacenadas. En la física de partículas, los datos se leen y se filtran a medida que se genera, minimizando en gran medida los requisitos de almacenamiento. Pero este análisis no es del todo práctico para la información biológica, principalmente debido a la cuestión de qué secuencias se puede prescindir sin problemas es mucho más difícil de decidir. Es concebible que tengan que preservarse mil millones de conjuntos de datos individuales. Servidores y programas

El problema no es realmente la velocidad, que crecerá rápidamente y de manera previsible, dice Schatz, sino en encontrar la manera de alinear y representar diferentes genomas para que puedan ser comparados – y comparados de maneras muy inteligentes y eficientes. Los investigadores creen que mediante la comparación, surgirán patrones, igual que los que descubrió Mendel hace 150 años.

En esa línea, científicos de la Universidad de Missouri han creado un servicio gratuito en línea, RNAMiner, para manejar grandes conjuntos de datos que podrían conducir a resultados más rápidos en el estudio de la genómica de plantas y animales.

El sitio web fue creado para ser fácil de usar y permite a los usuarios cargar los datos, analizar hasta cinco variables en los genomas completos de cinco especies: humano, ratón, Drosophila melanogaster (un tipo de mosca), TAIR10 Arabidopsis (una pequeña planta de flores) y Clostridium perfringens (un tipo de bacteria). Los datos genómicos de cualquier especie son bienvenidos, para que crezca la base de datos.

En promedio, dos gigabytes de datos requieren aproximadamente 10 horas para ser procesados y analizados. La mayoría de los investigadores obtienen resultados en un par de horas, aseguran sus creadores en la nota de prensa de la universidad.

Para usar la plataforma no es necesario saber computación, señalan. Sólo hay que cargar los archivos y seleccionar varios parámetros.

Por su parte, científicos de MIT (Boston, Massachusetts) han diseñado un sistema para que la recuperación de datos de las memorias flash (como las de los USB) sea tan eficientes en velocidad como la de las memorias RAM internas de los ordenadores. Referencia bibliográfica:

Zachary D. Stephens, Skylar Y. Lee, Faraz Faghri, Roy H. Campbell, Chengxiang Zhai, Miles J. Efron, Ravishankar Iyer, Michael C. Schatz, Saurabh Sinha, Gene E. Robinson: Big Data: Astronomical or Genomical? PLOS Biology, 2015. DOI: 10.1371/journal.pbio.1002195

RedacciónT21

Hacer un comentario

RSS Lo último de Tendencias21

  • La acidez cerebral podría estar relacionada con múltiples trastornos neurológicos 11 abril, 2024
    Un estudio en animales a gran escala vincula los cambios en el pH del cerebro con problemas cognitivos de amplio alcance, ligados a patologías como el autismo o el Alzheimer, entre otras. Los científicos creen que los problemas metabólicos en el cerebro podrían estar directamente relacionados con una variedad de trastornos neuropsiquiátricos y neurodegenerativos.
    Pablo Javier Piacente
  • Cultivan organoides cerebrales con conexiones neuronales similares a las de un cerebro real 11 abril, 2024
    Un equipo internacional de investigadores ha desarrollado una técnica para conectar tejidos cultivados en laboratorio que imitan al cerebro humano de una manera que se asemeja a los circuitos neuronales del cerebro real. El "sistema" de mini cerebros interconectados podría revolucionar nuestra comprensión de las funciones cerebrales.
    Pablo Javier Piacente
  • Los Estados se exponen a condenas judiciales por inacción climática 11 abril, 2024
    Suiza es el primer Estado condenado judicialmente por no resolver el desafío climático y violar los derechos humanos de las personas mayores. Hace un año, 16 niños y jóvenes obtuvieron una sentencia condenatoria contra el Estado de Montana por destruir con sus leyes el medioambiente. Cualquier Estado puede ser denunciado si no preserva el ambiente en […]
    Eduardo Martínez de la Fe
  • Detectan extraños pulsos de radio procedentes de un magnetar que desconciertan a los científicos 10 abril, 2024
    Los astrónomos han detectado señales de radio inusuales procedentes de XTE J1810-197, un radiomagnetar o estrella de neutrones ultramagnética situada a 8.100 años luz de distancia de la Tierra, en la constelación de Sagitario. Los resultados son inesperados y sin precedentes: a diferencia de las señales de radio que se han detectado en otros magnetares, […]
    Pablo Javier Piacente
  • La IA podría ser el límite para todas las civilizaciones avanzadas en el Universo 10 abril, 2024
    Un nuevo estudio sugiere que el desarrollo de la Inteligencia Artificial (IA) hacia una Superinteligencia Artificial (ASI) podría explicar por qué no hemos detectado aún otras civilizaciones avanzadas en el cosmos, a pesar de la alta probabilidad de su existencia: en vez de supernovas, plagas, guerras nucleares o eventos climáticos extremos que hayan sido un […]
    Pablo Javier Piacente
  • Higgs ha podido dejar abierta la puerta a la Nueva Física 10 abril, 2024
    La muerte de Peter Higgs, que pasará a la historia como el descubridor del bosón que explica cómo se forma la materia, deja un legado en la historia de la física que todavía puede aportar algo más trascendente: la prueba definitiva de una Nueva Física más allá del Modelo Estándar.
    Eduardo Martínez de la Fe
  • Descubren neuronas "zombis" en el cerebro, que serían claves en el proceso de aprendizaje 9 abril, 2024
    Las neuronas "zombis" son unidades vivas pero funcionalmente alteradas, que parecen "dormidas" en determinadas situaciones: los investigadores han revelado que cumplen un papel fundamental en el cerebelo, concretamente en aspectos relativos a la forma en la cual aprendemos.
    Pablo Javier Piacente
  • La Luna se invirtió por completo hace más de 4 mil millones de años 9 abril, 2024
    Hace unos 4.220 millones de años, poco después de que la Luna se formara a partir de un trozo de la Tierra que se desprendió durante una colisión violenta a principios de la historia del Sistema Solar, nuestro satélite se dio vuelta y comenzó así una etapa clave de su desarrollo. Así lo ha comprobado […]
    Pablo Javier Piacente
  • Arte rupestre de hace 2.000 años podría representar música psicodélica 9 abril, 2024
    Aunque la música psicodélica moderna no nació hasta la década de 1960, las influencias psicodélicas se pueden encontrar en el arte rupestre de hace miles de años. Grabados precolombinos en piedra, de 2.000 años de antigüedad, reflejan figuras humanas bailando en estado de trance chamánico.
    Redacción T21
  • Descubren antiguas partículas de polvo espacial provenientes de otro sistema estelar 8 abril, 2024
    Los astrónomos han descubierto una rara partícula de polvo atrapada en un antiguo meteorito extraterrestre, que fue formado por una estrella distinta a nuestro Sol. El polvo se habría originado luego de una supernova: las partículas son como "cápsulas del tiempo celestes" y proporcionan una instantánea de la vida de su estrella madre.
    Pablo Javier Piacente