Tendencias21

Un sistema analiza sin ambigüedades grandes cantidades de textos de Internet

Científicos de Alemania han desarrollado una tecnología de búsqueda y análisis de cantidades muy grandes de textos de redes sociales y medios de comunicación en línea, que elimina ambigüedades de significado, y que está especialmente destinada a empresas que quieren conocer su reputación y la de sus productos. En EE.UU., por su parte, han utilizado una tecnología similar para rastrear el origen de intoxicaciones alimentarias en Twitter. Por Carlos Gómez Abajo.

Un sistema analiza sin ambigüedades grandes cantidades de textos de Internet

Los portales de noticias y las redes sociales son ricas fuentes de información, por ejemplo para predecir las tendencias del mercado de valores. Muchos proveedores de servicios permiten rastrear grandes colecciones de textos introduciendo en sus motores de búsqueda palabras clave descriptivas, que tienden a ser muy ambiguas, sin embargo, y muestran rápidamente los límites de las tecnologías de búsqueda actuales.

Científicos de la computación de la Universidad del Sarre (Alemania) han desarrollado una nueva tecnología de análisis de textos que mejora considerablemente la búsqueda en colecciones de texto muy grandes por medio de la inteligencia artificial. Más allá de las búsquedas, esta tecnología también ayuda a investigar e incluso en la escritura de textos, proporcionando automáticamente información de contexto y sugiriendo enlaces a sitios web de interés.

Ambiverse, una empresa spin-off del Instituto Max Planck de Informática de Saarbrücken, presentará esta nueva tecnología durante la feria de tecnología CeBIT 2016, que se celebrará en Hannover del 14 al 18 de marzo.

En la era de los teléfonos inteligentes y las salas de chat, la información en las empresas no se distribuye a través de palabras habladas, sino más bien a través de correos electrónicos, bases de datos y portales de noticias internas.

«De acuerdo con una encuesta realizada por la empresa de análisis de mercado Gartner, apenas un cuarto de todas las empresas están utilizando métodos automáticos para analizar su información textual. Para 2021, Gartner predice que lo hará el 65 por ciento. Esto se debe a que la cantidad de datos dentro de las empresas está en continuo crecimiento y, por tanto, se hace más y más costoso tenerlos estructurados y rastrearlos con éxito», dice Johannes Hoffart, investigador del Instituto Max Planck de Informática y fundador de Ambiverse.

Su equipo ha desarrollado una nueva tecnología para el análisis de grandes cantidades de texto, en la que la inteligencia artificial está continuamente «pensando en voz alta» al fondo.

«Para el análisis de los textos, nos basamos en conjuntos extremadamente grandes de conocimiento construidos a partir de fuentes de libre acceso como Wikipedia o grandes portales multimedia de la web. Estos conjuntos pueden crecer con conocimiento específico de la empresa o del ámbito de actuación, tales como catálogos de productos o correspondencia de los clientes», dice Hoffart en la nota de prensa de la universidd, recogida por AlphaGalileo.

Mediante la aplicación de algoritmos complejos, estos textos son examinados y analizados con herramientas lingüísticas. «Nuestro software asigna entonces las empresas y áreas de negocio a las categorías correspondientes, lo cual nos permite reunir información valiosa sobre cómo de bien posicionados en el mercado están sus productos en comparación con los de los competidores», explica. Un reto especialmente difícil es el hecho de que los nombres de productos y empresas son de todo menos únicos y tienden a tener significados completamente diferentes en diferentes contextos, lo que los hace muy ambiguos.

Ambigüedad

«Nuestra tecnología ayuda a asignar palabras y frases a los objetos correctos del mundo real, resolviendo las ambigüedades de forma automática», explica el científico de la computación. París, por ejemplo, no solo representa la ciudad de la luz y la capital francesa, sino también una figura de la mitología griega o una conocida chica con antepasados ​​alemanes, siempre según el contexto.

«La búsqueda eficiente de enormes colecciones de texto sólo es posible si los diferentes significados de un nombre o un concepto están resueltos correctamente», dice Hoffart. El motor de búsqueda inteligente desarrollado por su equipo aprende de forma continua y mejora con el tiempo, y también asocia automáticamente nuevas entradas de texto a categorías similares. «Estos algoritmos son, por tanto, atractivos para las empresas que analizan las redes sociales o los medios de comunicación en línea para medir el grado de conocimiento de la marca de un producto o el éxito de una campaña de marketing», añade el investigador.

En CeBIT, Ambiverse presentará además una plataforma de creación inteligente que ayuda a los autores a investigar y escribir textos. Los usuarios introducen textos y reciben automáticamente información de contexto: por ejemplo, guías y manuales internos de la empresa o enlaces de Internet.

Los visitantes al stand de Ambiverse en CeBIT también tendrán la oportunidad de competir con su novedosa tecnología de inteligencia artificial, jugando a un juego de preguntas y respuestas.  Ambiverse está financiada por el Ministerio alemán de Economía.

Intoxicaciones en tuits

La tecnología de lenguaje natural permite utilizar las redes sociales para usos de lo más variado, como encontrar fuentes de intoxicación alimentaria. Investigadores de la Universidad de Rochester (Nueva York, EE.UU.) han desarrollado una aplicación que utiliza el procesamiento del lenguaje natural y la inteligencia artificial para identificar tuits relacionados con intoxicaciones alimentarias, conectarlos a los restaurantes usando geoetiquetado e identificar probables puntos conflictivos.

Según informa Dail Software, los investigadores han mostrado que es posible deducir el origen de los brotes usando el contenido público de las redes sociales y algoritmos de aprendizaje profundo entrenados para reconocer rasgos lingüísticos asociados con una enfermedad: “Siento náuseas”, por ejemplo.

En un artículo, los investigadores describen su colaboración con el departamento de salud de Las Vegas, cuyos funcionarios utilizaron la aplicación llamada nEmesis para mejorar los protocolos de inspección de la ciudad.

Normalmente, las ciudades (como Las Vegas) utilizan un sistema aleatorio para decidir qué restaurantes inspeccionar en cualquier día dado. El equipo de investigación convenció a los funcionarios de Las Vegas para reemplazar su sistema aleatorio con una lista de posibles sitios de infección derivada de sus algoritmos inteligentes.

En un experimento controlado, la mitad de las inspecciones se realizaron utilizando el enfoque al azar y la otra mitad se realizaron utilizando nEmesis, sin que los inspectores supieran de que se había cambiado el sistema.

Durante tres meses, el sistema escaneó automáticamente un promedio de 16.000 tuits de 3.600 usuarios cada día. 1.000 de los tuits estaban relacionados con un restaurante específico y de ellos, aproximadamente 12 incluían contenido que probablemente significaba una intoxicación alimentaria.

Analizando los resultados del experimento, encontraron que el sistema basado en tuits llevó a un 15 por ciento de citaciones por infracciones sanitarias respecto al total de inspecciones, en comparación con el 9 por ciento del sistema aleatorio. Algunas de las inspecciones acabaron en advertencias; otras, en cierres.

Los investigadores estiman que estas mejoras en la eficacia de las inspecciones dieron lugar a 9.000 menos incidentes de envenenamiento por alimentos y 557 menos hospitalizaciones en Las Vegas durante el estudio.

Referencia bibliográfica:

Adam Sadilek, Henry Kautz, Lauren DiPrete, Brian Labus, Eric Portman, Jack Teitel y Vincent Silenzio: Deploying nEmesis: Preventing Foodborne Illness by Data Mining Social Media.

RedacciónT21

Hacer un comentario

RSS Lo último de Tendencias21

  • La NASA está observando una enorme y creciente anomalía en el campo magnético de la Tierra 30 marzo, 2025
    La NASA está haciendo un seguimiento detallado de la "abolladura" o "bache" en el campo magnético terrestre descubierta en 1961, que crece rápidamente y podría ser el preludio de una inversión geomagnética: ocurre cuando los polos magnéticos norte y sur intercambian posiciones.
    EDUARDO MARTÍNEZ DE LA FE/T21
  • Crean un atlas completo de tipos y ubicaciones de células en el cerebro de un mamífero 30 marzo, 2025
    Un grupo de investigadores ha utilizado la transcriptómica espacial, una tecnología genética recientemente desarrollada, para mapear las ubicaciones y las características de miles de tipos de células en todo el cerebro de un ratón. El aspecto clave es que lograron revelar no solo la actividad genética de células individuales, sino también su ubicación dentro de […]
    Pablo Javier Piacente
  • Un microscopio inteligente descubre cómo funciona el cerebro de los modelos de lenguaje artificial 29 marzo, 2025
    Un microscopio inteligente ha realizado un escáner del cerebro de la IA avanzada y descubierto que posee un "lenguaje universal de pensamiento" que le permite razonamientos consistentes, aunque todavía puede generar explicaciones erróneas sobre sus representaciones abstractas.
    EDUARDO MARTÍNEZ DE LA FE/T21
  • Una buena "limpieza" de residuos cerebrales podría mejorar la memoria 28 marzo, 2025
    Un estudio realizado en roedores comprueba que aunque los procesos de limpieza esenciales que nuestros cerebros necesitan para seguir funcionando comienzan a descomponerse y fallar a medida que envejecemos, aumentar los ciclos de eliminación de desechos cerebrales incrementaría dramáticamente los efectos benéficos sobre la memoria.
    Pablo Javier Piacente / T21
  • China tiene 100 árboles por habitante: drones con láser logran el mapeo más preciso hasta hoy 28 marzo, 2025
    Un equipo de científicos ha logrado determinar que China alberga aproximadamente 142.600 millones de árboles, lo que equivale a alrededor de 100 árboles por habitante. Este logro se alcanzó mediante el uso de drones equipados con tecnología láser, específicamente la variedad conocida como LiDAR (Light Detection and Ranging), que permite mapear y contar árboles con […]
    Pablo Javier Piacente / T21
  • Este es el nuevo fármaco que vuelve la sangre letal para los mosquitos 28 marzo, 2025
    La malaria y otras patologías transmitidas por algunas especies de mosquitos podrían controlarse con mayor eficacia gracias a un fármaco empleado habitualmente para tratar enfermedades del metabolismo. Es más eficiente, económico y ecológico que las alternativas actuales.
    Redacción T21
  • La Inteligencia Artificial dispara el tamaño del corazón digital del mundo 28 marzo, 2025
    El corazón de la revolución digital del mundo late principalmente en Estados Unidos, seguido a distancia por China y Europa. Amazon, Microsoft y Google representan el 59% de la capacidad mundial de centros de datos de hiperescala, que se han duplicado en los últimos cinco años impulsados por la IA.
    EDUARDO MARTÍNEZ DE LA FE/T21
  • Los psicópatas sienten menos dolor, por eso lo provocan en otros 27 marzo, 2025
    Una nueva investigación muestra que los psicópatas tienen una relación compleja con el dolor, que en parte puede ser responsable de su falta de empatía: al sentir menos dolor, sus límites para generarlo parecen borrarse. Aunque el dolor se registra a nivel cerebral, es procesado de forma diferente por los psicópatas.
    Pablo Javier Piacente / T21
  • Trasplantan con éxito el hígado de un cerdo a un ser humano 27 marzo, 2025
    Un hígado de cerdo modificado genéticamente y trasplantado a un paciente humano parece haber funcionado normalmente durante 10 días, y sin presentar signos de rechazo. Este tipo de soluciones podría servir como terapia "puente" para pacientes con insuficiencia hepática, mientras esperan donantes humanos.
    Pablo Javier Piacente / T21
  • Las universidades europeas también están amenazadas por los recortes académicos de Trump 27 marzo, 2025
    La presión de Estados Unidos sobre las universidades para que se alineen con la ideología del gobierno Trump ha llegado a Europa, donde instituciones de Suiza, España y Países Bajos pueden perder financiación a importantes proyectos de investigación. Australia también está afectada.
    Redacción T21