Tendencias21

Un software descifra palabras incompletas de textos históricos

Estudiantes de Ingeniería y Artes de Estados Unidos se han valido del conocimiento digital para solucionar los problemas de transcripción de textos históricos digitalizados. Utilizando el modelado del lenguaje, técnica utilizada en programas de autocorrección y de reconocimiento de voz, han creado un software que ofrece posibilidades para corregir las palabras que faltan o los errores ortográficos en función del contexto. Por Patricia Pérez

Un software descifra palabras incompletas de textos históricos

La digitalización de libros históricos se enfrenta al problema del paso del tiempo, lo que a menudo supone páginas oscurecidas, manchadas o con roturas, además de palabras o abreviaturas en desuso actualmente. Como consecuencia, en Estados Unidos cuando los traductores no pueden leer o entender una parte de un texto, sustituyen el carácter desconocido por un punto negro, un símbolo que desluce la importancia de estos escritos.

Ahora, estudiantes de Ingeniería de la Escuela McCormick en la Universidad Northwestern, en EEUU, pretenden acabar con esas palabras desfiguradas y, en ocasiones, indescifrables que pueblan las versiones traducidas de los libros más antiguos. Trabajando en colaboración con estudiantes de Pregrado de la Escuela Weinberg de Artes y Ciencias, han diseñado un software que utiliza el modelado del lenguaje, similar a los programas de autocorrección y de reconocimiento de voz, para poner fin a las palabras incompletas.

«Los textos digitalizados son bienes de patrimonio cultural y como tal, deben estar limpios», destaca Martin Mueller, profesor emérito de Weinberg, en un artículo de la revista de ingeniería de Northwestern.

Los ingenieros pusieron a prueba el sistema con 363 textos de la misma época relativamente libres de puntos negros. Una vez que el programa entendió el mecanismo, estaba listo para trabajar con otra muestra de 359 textos defectuosos, incluyendo en esta ocasión obras de teatro, libros de texto, transcripciones de juicios, tratados o novelas románticas, entre otros.

Probabilidades y contexto

En 1999, varias universidades y bibliotecas estadounidenses se unieron para crear la Text Creation Partnership (TCP), organización sin ánimo de lucro desde la que digitalizar libros en inglés publicados antes de 1700. Además crearon una base de datos navegable gratuita para que estudiantes, académicos y lectores de todo el mundo pudieran buscar o transcribir textos y subirlos a la red.

«Con un proceso así, muchas cosas pueden salir mal», expresa Mueller. De hecho, en los 50.000 textos transcritos resultantes se registraron aproximadamente cinco millones de palabras incompletas. A los libros envejecidos y estropeados había que sumar los escaneos de mala calidad. Por ello, si los transcriptores no podían leer o entender una parte del ejemplar, se acordó sustituir el carácter desconocido por un punto negro.

Según explica la universidad en un comunicado, el sistema de modelado del lenguaje detecta tanto los puntos negros como las faltas de ortografía, evaluando entonces los 35 caracteres a la izquierda y la derecha de cada uno para ofrecer tres posibilidades de sustitución, asignando una probabilidad a cada opción en función del contexto.

Por ejemplo, la palabra «lo • e» en inglés podría ser «love» (amor), pero también “lone” (solitario), “lore” (tradición) o “lose” (perder). El software se vale del contexto para elegir la opción correcta, de forma que si dice “she was in lo•e with him» (ella estaba • de él), el programa asume que la palabra que falta es «love».

El pasado verano, los estudiantes de Weinberg trabajaron para resolver los enigmas del lenguaje, combinando opciones y seleccionando la correcta. Mientras tanto, los de Ingeniería desarrollaron una plataforma web interactiva donde los estudiantes de Humanidades podían buscar palabras en diferentes textos y corregir los errores en el acto. En muchos casos, no solo se ocupaban de palabras con huecos en blanco, sino también de errores de ortografía y de palabras o letras en desuso. Los administradores decidían después si aceptaban o rechazaban las correcciones, que se actualizaban automáticamente en el sistema.

Reducción tiempo/coste

«Las máquinas también pueden aprender de esa retroalimentación», explica el líder del proyecto Doug Downey, profesor asociado de Ingeniería Eléctrica e Informática en McCormick. «Con un poco de crowdsourcing conseguiríamos transcripciones de alta calidad», añade.

Y es que, probablemente un lector podría revisar varios textos y corregir todos los errores, pero tardaría varios minutos en encontrar sólo uno. Por esta regla de tres se necesitarían años de trabajo sin parar de una persona para hacer frente a todos los errores; una tarea poco práctica, si no humanamente imposible.

Los resultados iniciales de la colaboración indican que aproximadamente tres cuartas partes de las obras que están incompletas o mal transcritas pueden ser definitivamente corregidas con una combinación de aprendizaje automático y edición asistida, sin necesidad de consultar el texto original impreso. Esto podría reducir drásticamente el coste/tiempo humano de minutos a unos pocos segundos por palabra.

RedacciónT21

Hacer un comentario

RSS Lo último de Tendencias21

  • Descubren un helecho tropical que transforma sus hojas muertas en nuevas raíces 9 febrero, 2024
    Para sobrevivir en el suelo anegado y bajo en nutrientes del bosque de Quebrada Chorro, en el oeste de Panamá, una especie de helecho tropical arborescente reutiliza sus hojas muertas, convirtiéndolas en nuevas raíces. Los científicos descubrieron que el helecho reconfigura estas “hojas zombis”, invirtiendo el flujo de agua para atraer nutrientes de regreso a […]
    Pablo Javier Piacente
  • Descubren una extraña combinación de minerales en las muestras lunares de la misión Chang'e-5 de China 9 febrero, 2024
    Los minerales antiguos y nuevos identificados en las muestras lunares traídas por la misión Chang'e-5 de China están ayudando a los científicos a comprender mejor la historia de la Luna: ahora, los especialistas han descubierto más propiedades del sexto nuevo mineral lunar, llamado Changesite-(Y). Además, otros compuestos hallados, la seifertita y la stishovita, pueden coexistir […]
    Pablo Javier Piacente
  • Los robots que atienden a pacientes llegan a los hospitales 9 febrero, 2024
    Robots diseñados para brindar comodidad a los pacientes de edad avanzada y aliviar su ansiedad, han sido probados con éxito en un hospital de París: saludan, responden a preguntas, comprenden conversaciones grupales y apoyan las tareas de enfermería.
    Redacción T21
  • Una pequeña luna de Saturno parecida a la “Estrella de la Muerte” de Star Wars contiene un océano oculto 8 febrero, 2024
    Por debajo de la superficie repleta de cráteres de Mimas, una de las lunas más pequeñas de Saturno, se esconde un océano global de agua líquida de reciente formación. El satélite posee tan sólo unos 400 kilómetros de diámetro y presenta un notable parecido con la “Estrella de la Muerte”, una estación espacial imperial que […]
    Pablo Javier Piacente
  • Logran controlar un objeto virtual con la mente durante un sueño lúcido 8 febrero, 2024
    Un grupo de participantes en un nuevo estudio científico logró manejar un vehículo virtual a través de un avatar únicamente con su mente, mientras sus cerebros permanecían en la fase REM del sueño. Además de profundizar en los misterios de la consciencia humana, la innovación podría facilitar el acceso a nuevos desarrollos tecnológicos, como un […]
    Pablo Javier Piacente
  • Un proyecto global trabaja para crear de forma colaborativa un cerebro robótico general 8 febrero, 2024
    El auge de la inteligencia artificial generativa impulsa un proyecto global que trabaja para crear un cerebro robótico general, capaz de generar androides como los que hemos visto hasta ahora solo en la ciencia ficción. Pero es cuestión de tiempo que convivamos con ellos en perfecta armonía. Ya no es una utopía.
    Eduardo Martínez de la Fe
  • La IA está capacitada para resolver dilemas morales cuando conduce vehículos autónomos 8 febrero, 2024
    Los sistemas de IA muestran significativas similitudes éticas con las reacciones humanas ante dilemas morales, lo que los acreditan para conducir vehículos autónomos tal como lo harían las personas.
    Redacción T21
  • Los huracanes se están volviendo tan fuertes que ya no existen categorías para clasificarlos 7 febrero, 2024
    Cinco tormentas en la última década tuvieron velocidades de viento que pertenecen a una hipotética categoría 6 en la escala de huracanes Saffir-Simpson: el fenómeno obligaría a los científicos a crear una nueva clasificación, capaz de reflejar la virulencia de los huracanes en la actualidad. Las causas principales del fenómeno tienen su origen en el […]
    Pablo Javier Piacente
  • Un asteroide habría explotado sobre la Antártida hace unos 2,5 millones de años 7 febrero, 2024
    Un asteroide se desintegró sobre el continente antártico hace aproximadamente 2,5 millones de años: la evidencia proviene de un análisis químico de más de 100 pequeños trozos de roca extraterrestre, que se han preservado dentro de las enormes capas de hielo. Hasta el momento, solo se conocen otros dos eventos de explosiones aéreas antiguas en […]
    Pablo Javier Piacente
  • Crean la primera niña de inteligencia artificial del mundo 7 febrero, 2024
    La primera niña IA del mundo ha sido creada por científicos chinos, que la han dotado de emociones e intelecto y de la capacidad de aprender de forma autónoma. Se comporta como si tuviera tres o cuatro años y representa un avance significativo para el campo de la inteligencia artificial general.
    Redacción T21