Tendencias21
Microsoft desarrolla ordenadores que analizan, comprenden y completan frases

Microsoft desarrolla ordenadores que analizan, comprenden y completan frases

La división científica de Microsoft lidera un equipo de investigación interesado en demostrar la capacidad de los ordenadores para entender la complejidad semántica del lenguaje. Para ello han ideado una serie de algoritmos de aprendizaje automático capaces de analizar y comprender las frases que se les presentan, e incluso completarlas con la palabra más apropiada para que tengan sentido completo. De momento la tasa de éxito supera levemente el 50%, pero se obtienen mejores resultados que dejándolo al azar. Por Patricia Pérez.

Microsoft desarrolla ordenadores que analizan, comprenden y completan frases

El detective más famoso de la literatura, Sherlock Holmes, sobresalía por su inteligencia, por su capacidad de observación y de deducción, suficiente como para terminar las frases de su querido compañero Watson antes de que el buen doctor tuviera la oportunidad de hacerlo.

Pero, ¿podrían los ordenadores actuar con la misma astucia de Holmes y deducir lo que se va a decir antes de hacerlo?

Un equipo de científicos de la computación de Microsoft Research (MSR), división de la multinacional informática dedicada a la investigación de la ciencia de equipo, en Redmond, junto a compañeros de la Universidad de Cornell y la Universidad de California en Irvine (UCI), ambas en Estados Unidos, están tratando de averiguarlo con interesantes resultados, según publica la web V3.co.uk.

Los investigadores tenían curiosidad por estudiar la capacidad que se presupone a los ordenadores para entender la complejidad semántica del lenguaje. Para ello idearon una serie de algoritmos de aprendizaje automático, con el objetivo de que pudieran analizar y comprender los enunciados que se les presentaran.

Después se dedicaron a ponerlos a prueba con las más variopintas fuentes de datos, desde los más complejos exámenes a populares artículos periodísticos o publicados en la red. Según la procedencia de los datos, los resultados variaron y, con ello, el nivel de éxito del método.

Coherencia semántica

Como explican los investigadores en su artículo de presentación, en este trabajo se pone a prueba la capacidad de los algoritmos para distinguir el sentido del sinsentido en una frase.

Para ello, se aborda el problema con dos enfoques: métodos que utilizan puramente información léxica, como los n-gramas de un modelo de lenguaje clásico -aquellos que permiten hacer una predicción estadística del próximo elemento de la secuencia- y métodos que evalúan la coherencia global, que necesitan un análisis semántico.

Para cada enfoque, los algoritmos se entrenaron con diferentes test de comprensión, incluyendo preguntas de exámenes propias de Secundaria y pruebas basadas en pasajes de las cinco novelas de Sherlock Holmes escritas por Sir Arthur Conan Doyle.

Sobresale la Prueba de Aptitud Académica (SAT, por sus siglas en inglés), basada en frases con uno o dos espacios en blanco para rellenar, con cinco palabras como opción para cada caso. Sólo una de ellas no guarda coherencia semántica.

Estas pruebas están muy limitadas, en el sentido de que toda la información necesaria está presente en la propia sentencia. «Son cuestiones interesantes porque sondean la capacidad de distinguir entre oraciones semánticamente coherentes de las incoherentes, y sin necesidad de más contexto que la propia frase», señalan los investigadores. Sin embargo, varían en dificultad. En general, las preguntas requieren una combinación de conocimiento general y semántico, así como un ocasional razonamiento lógico.

Los algoritmos utilizan la técnica estadística conocida como estimación de frecuencia Good-Turing, basada en los trabajos del precursor de la informática moderna, el británico Alan Turing, durante su colaboración en la Segunda Guerra Mundial para descifrar los mensajes cifrados alemanes.

Tras entrenar a los algoritmos con un amplio corpus de palabras, estos son capaces de predecir la probabilidad de que una de las opciones tenga mayor sentido para rellenar el espacio en blanco. Para ello previamente deben calcular la probabilidad de sentido de la frase con cada una de las opciones posibles.

Microsoft desarrolla ordenadores que analizan, comprenden y completan frases

Éxito parcial

La fuente de datos se extrajo por una parte del archivo de todo el material publicado por el diario Los Angeles Times entre 1985 y 2002, lo que se traduce en alrededor de 1,1 millones de palabras en total. A ello se suman frases extraídas de la versión de 2003 de la enciclopedia multimedia Encarta, así como de la colección de artículos publicados en la enciclopedia de contenido libre Wikipedia.

Cuando se enfrentaron a los exámenes del SAT, los algoritmos pudieron rellenar con éxito los huecos en blanco en un 53 por ciento de los casos. Con los textos de Holmes, el sistema consiguió una tasa de éxito del 52 por ciento. “No es perfecto, pero mejor de lo que se puede esperar por pura casualidad”, matizan los investigadores.

Es más, el equipo fue capaz de identificar las áreas que se podrían mejorar. “Es alentador que la tercera parte de los errores se refieran a cuestiones de una sola palabra, lo que pone a prueba la definición del diccionario de una palabra”, advirtieron. Así, predicen que “con unos pocos ajustes, debe ser posible reducir esos errores”.

Sin embargo, todavía queda un 40% de los errores que parece más complicado de resolver, aquellos asociados con un cierto nivel de conocimiento general. Por ejemplo, en la frase: “Muchos temen que la [espacio en blanco] de una publicidad del tabaco más benevolente podría ser perjudicial para la salud pública”, el algoritmo se decidió por la respuesta «retirada», en lugar de la opción correcta, «ratificación».

Resolver ese problema significa que quedan aún unos cuantos años antes de que los ordenadores sean capaces de terminar con éxito total las frases de los humanos. Los investigadores seguirán trabajando para perfeccionar los dos enfoques analizados, ya que consideran que se obtienen mejores resultados que dejándolo al azar, combinando ambos métodos como una opción posible.

De momento, se conforman con dar a conocer el estudio inicial, el cual se presentará oficialmente en el 50 Congreso Anual de la Asociación de Lingüística Computacional (ACL), el fórum principal en el que se exponen las investigaciones más significativas sobre lingüística computacional y procesamiento del lenguaje natural, y que en esta ocasión se celebra en la isla de Jeju, Corea.

RedacciónT21

Hacer un comentario

RSS Lo último de Tendencias21

  • Ya es posible transmitir el tacto a través de Internet 26 junio, 2024
    Un nuevo estándar para la compresión y transmisión del sentido del tacto mediante Internet sienta las bases para la telecirugía, la teleconducción y nuevas experiencias de juego en línea, entre otras aplicaciones. El flamante estándar HCTI (Haptic Codecs for the Tactile Internet) es para el “tacto digital” lo que son JPEG, MP3 y MPEG para […]
    Pablo Javier Piacente
  • Las primeras muestras de la cara oculta de la Luna ya están en la Tierra 26 junio, 2024
    La cápsula de reingreso de la sonda Chang'e-6 de China, que transporta hasta dos kilogramos de materiales extraídos y perforados de la cuenca más antigua de la Luna ubicada en su lado oscuro, aterrizó este martes 25 de junio en la región de Mongolia Interior y fue rápidamente recuperada, según informó la Administración Nacional del […]
    Pablo Javier Piacente
  • La Tierra tendrá dos soles dentro de 1,3 millones de años y durante 60.000 años 26 junio, 2024
    Dentro de 1,3 millones de años, la Tierra tendrá una especie de segundo sol porque la estrella Gliese 710 se acercará a 1,1 años luz de la Tierra y la veríamos del mismo tamaño que Júpiter. Lo malo es que esa alteración cósmica puede provocar un episodio en nuestro planeta como el que acabó con […]
    Eduardo Martínez de la Fe
  • China descubre grafeno natural en la Luna 25 junio, 2024
    Investigadores chinos han descubierto recientemente grafeno natural de escasas capas por primera vez en la Luna, a partir de las muestras traídas a la Tierra por la sonda Chang'e 5. El hallazgo proporciona nuevos conocimientos sobre las actividades geológicas, la historia evolutiva y las características ambientales de la Luna.
    Pablo Javier Piacente
  • Los incendios forestales extremos se duplicaron en los últimos 20 años en todo el planeta 25 junio, 2024
    Una nueva investigación concluye que la frecuencia e intensidad de los incendios forestales extremos se ha más que duplicado en todo el mundo en las últimas dos décadas, debido al calentamiento global antropogénico y otros factores relacionados. Se trata de la primera ocasión en la cual los científicos pudieron trazar una tendencia global para los […]
    Pablo Javier Piacente
  • Detectado en el Mediterráneo el neutrino más energético del universo 25 junio, 2024
    El neutrino más potente jamás observado ha dejado su huella en las profundidades del Mediterráneo, aunque todavía se desconoce de qué rincón del universo procede. Los neutrinos cosmogénicos son los mensajeros de algunos de los eventos más cataclísmicos del cosmos.
    Eduardo Martínez de la Fe
  • La IA identifica seis formas diferentes de depresión 24 junio, 2024
    Los científicos han identificado seis formas biológicamente distintas de depresión gracias a la aplicación de la Inteligencia Artificial (IA) en estudios cerebrales. El hallazgo podría explicar por qué algunas personas no responden a los tratamientos tradicionales para la afección, como los antidepresivos y la terapia psicológica.
    Pablo Javier Piacente
  • La NASA pondrá en órbita una estrella artificial que revolucionará el estudio del Universo 24 junio, 2024
    La NASA encarará un ambicioso proyecto para colocar en órbita una estrella artificial: permitirá la calibración de telescopios a niveles previamente inalcanzables. El proyecto tiene como objetivo mejorar significativamente las mediciones de la luminosidad estelar y abordar varios otros desafíos que dificultan la astrofísica moderna.
    Pablo Javier Piacente
  • Los macacos nos enseñan cómo sobrevivir a un desastre natural 24 junio, 2024
    Los macacos de la isla caribeña de Puerto Rico se volvieron más tolerantes y menos agresivos después del huracán María, que los obligó a compartir la sombra de los árboles para sobrevivir al intenso calor.
    Redacción T21
  • Extrañas formas de vida se ocultan en antiguas cuevas de lava de Hawai 23 junio, 2024
    Científicos estadounidenses han logrado identificar una gran diversidad de especies microbianas únicas, que se han desarrollado en cuevas geotérmicas, tubos de lava y fumarolas volcánicas de la isla de Hawái. Estas estructuras subterráneas se formaron hace entre 65 y 800 años y reciben poca o ninguna luz solar, en ambientes similares a los que pueden encontrarse […]
    Pablo Javier Piacente