Tendencias21

Un software de análisis de autoría, clave para destapar el seudónimo de J.K. Rowling

La semana pasada se destapaba la farsa de The Cuckoo’s Calling, una novela de detectives escrita por la autora británica J.K. Rowling bajo el seudónimo de Robert Galbraith. Quien saltara a la fama mundial por la saga de libros de Harry Potter se convirtió en noticia después de que el rotativo británico The Sunday Times descubriera todo el pastel, ante lo cual la escritora se vio obligada a reconocer su autoría, disparando las ventas del libro desde ese momento.

No es este el primer caso de destape literario. A mediados de los noventa fue famoso el caso de Primary Colors, una novela anónima que amenazaba con tumbar la credibilidad del primer mandatario estadounidense del momento, Bill Clinton, al narrar la historia ficticia del vertiginoso ascenso de un gobernador sureño que trata de conservar sus valores ante un corrupto sistema que lo reta de las más variadas formas. Un tiempo más tarde se conoció que tras el anonimato se ocultaba el cronista del Washington Post Joel Klein.

En esta ocasión, sin embargo, la autoría se ha descubierto mucho más rápido gracias a los métodos automatizados utilizados para su análisis. The Sunday Times pidió el encargo a dos académicos que trabajan en software específico para examinar similitudes estilísticas: Peter Millican, profesor de Filosofía e Informática en la Universidad de Oxford, Inglaterra, y Patrick Juola, profesor de Ciencias de la Computación en la Universidad de Duquesne en Pittsburgh, Estados Unidos.

Según ha explicado este último en su blog Language Log tras la insólita revelación, el dominical acudió a ellos al recibir una denuncia anónima a través de Twitter de que Rowling podría ser la autora real de The Cuckoo’s Calling, lo que, sumado a otras pistas, le llevó a tirar del hilo, aunque sin permitirles inicialmente saber por qué quería que la compararan con otras novelas.

El resultado fue que, aunque ninguno de los expertos consiguió una prueba fehaciente, sí lograron determinar que era más probable que Rowling fuera Galbraith frente a las otras novelistas.

Metodología

Como también se hace eco en un artículo The Wall Street Journal, la escritora independiente Cal Flyn, quien trabajó en la historia con el editor de Arte de The Times, Richard Brooks, contactó con Millican y Juola y les proporcionó una copia digital de The Cuckoo’s Calling, junto con la anterior novela de Rowling, The Casual Vacancy, así como las obras de otras tres autoras británicas especializadas en novela negra: Ruth Rendell, P.D. James, and Val McDermid.

El programa de Millican, conocido como Signature, y el Programa de Reconocimiento de Autoría basado en Java (JGAAP) de Juola, no necesitaron mucho tiempo para ofrecer una respuesta: The Cuckoo’s Calling era estilísticamente más similar a The Casual Vacancy que a cualquier trabajo de las demás novelistas.

Para mayor determinación, Millican solicitó un libro adicional por cada una de las autoras, comprobando que Harry Potter y las Reliquias de la Muerte de Rowling, a pesar de tratarse de un género muy alejado de la novela policíaca, quedó en segundo lugar en su estudio, por delante de las otras seis novelas analizadas.

En cuanto al sistema de Juola, se acerca a los aspectos prácticos de la estilometría forense, disciplina que analiza ciertos rasgos del estilo del autor y los utiliza para comparar dos o más textos. Para ello parte de una teoría bastante simple: el lenguaje es un conjunto de opciones, y los oradores y escritores tienden a caer en las mismas, o al menos más comunes, elecciones. A veces esas opciones vienen marcadas por el dialecto, como localismos, otras por las presiones sociales y algunas simplemente aparecen.

Partiendo de esta premisa, el profesor lleva diez años trabajando en un proyecto de software para evaluar la similitud estilística de forma automática. El sistema analiza diferentes hábitos detectados en las novelas, por ejemplo la extensión de las palabras, la distribución de las cien más comunes en cada libro, así como pares de palabras que a menudo aparecen juntas.

Quizás el aspecto más insólito sea agrupar cadenas de cuatro caracteres que suelen encontrarse unidas, incluyendo letras, espacios y signos gramaticales. Aunque Juola afirmó no conocer a ningún novelista que se hubiera parado a pensar en algún momento en la inclusión de estas cadenas en su escritura, apuntó a estudios que han demostrado que este tipo de secuencia, conocida como cuatro n-gramas, es un fuerte indicador de la autoría.

Resultados

Con este sistema los resultados tampoco fueron exactos, pero apuntaban fuertemente a Rowling como ganadora o finalista en cada análisis. Sin embargo, tanto Juola como Millican se cuidaron de no hacer grandes declaraciones al respecto. “Nada en el estudio constituye una prueba de la autoría de Rowling”, asegura el profesor de Duquesne en su blog.

Todo lo que realmente prueba -sugiere, más bien- es que, de las cuatro autoras estudiadas, es la candidata más probable. “Es justo decir que hubo muchas pruebas que apuntaban a Rowling como la autora y nada específicamente que sugiriera lo contrario”, añade.

Millican, por su parte, manifestó a la BBC que “no es como las huellas dactilares”, porque “los textos son demasiado personales”. El académico comentó además que necesitaría tener mucho más tiempo y texto para ser capaz de identificar frases particulares que fueran distintivas de Rowling.

Sin embargo, para el caso en cuestión las pruebas encontradas fueron suficientes para propiciar la confesión de la novelista británica. Si se hubiera necesitado una evidencia más fuerte, se habría tenido que recurrir a la recopilación de más datos o a la comparación con aún más autores.

Con todo, la investigación ayuda a comprender mejor los puntos fuertes y las limitaciones de este tipo de análisis de autoría informatizada, que puede tener aplicaciones no sólo en el ámbito de la literatura, sino también para el estudio de textos históricos o en investigaciones legales.