Falta privacidad en los documentos PDF

La publicación de documentos digitales a través de Internet plantea graves amenazas de seguridad y privacidad, tanto para el autor como para el lector. Actualmente, el estándar de facto para el intercambio de documentos digitales es el formato PDF, y se estima que miles de millones de documentos son publicados o descargados cada día en este formato.

Después de estudiar las filtraciones de información en los documentos de Microsoft Office, investigadores del Laboratorio de Sistemas Distribuidos de la Facultad de Informática de la Universidad Politécnica de Madrid, se han centrado ahora en las asociadas al formato de documentos PDF. Su objetivo es hacer que el usuario sea consciente de los riesgos que corre cada vez que un documento ha sido publicado a través de Internet, así como proporcionar directrices eficaces para minimizar las fugas de información sensible. Los resultados de esta investigación han sido publicados en el Journal of Systems and Software, según informa la citada Facultad en un comunicado.

Desde el punto de vista del autor, los documentos publicados pueden llevar asociados datos relacionados con su nombre de usuario, la localización del documento en su máquina o incluso partes del documento que se eliminaron antes de su publicación.

Parte de esta información, como el nombre de usuario o el último día en el que el documento fue editado, se denomina meta-datos, y se utilizan por una aplicación del lector o del autor para mejorar la experiencia del usuario. Sin embargo, podría dar lugar a violaciones de la intimidad, sobre todo porque muchos autores no son conscientes de su divulgación junto con la publicación del documento.

Además, hay otra información confidencial que se puede filtrar por el mal diseño del formato del documento. Por ejemplo, cuando un párrafo de un documento es eliminado, las aplicaciones de edición de PDF no quitan el párrafo, sino que lo marcan como «invisible», de manera que la aplicación del lector no lo visualiza cuando el documento se abre para su lectura.

Por lo tanto, los datos eliminados se mantienen junto con el documento y cualquier usuario malintencionado que sepa dónde y cómo buscarlos puede leerlos. Para evitarlo, los investigadores de la UPM han desarrollado varias herramientas para extraer información de documentos PDF que no son accesibles con lectores de documentos estándar.

Minimizar las fugas de información

Hay incidentes famosos, donde la publicación de un documento ha puesto de manifiesto mucha más información que la que se estaba dispuesto a comunicar. Por ejemplo, en mayo de 2005, la Autoridad Provisional de la Coalición en Irak publicó un documento PDF sobre el rescate de la periodista italiana Giuliana Sgrena. Se utilizaron cuadros negros para ocultar los nombres de algunas personas involucradas en el incidente, pero todos ellos se dieron a conocer fácilmente al copiar el texto del documento original en un editor.

Este tipo de sucesos ha llevado a empresas e instituciones a dar directrices para evitar la fuga de información en los documentos publicados, después de que los medios de comunicación publicaran noticias a partir de documentos editados en la web, con información sensible que no debería hacerse pública.

Desde el punto de vista del lector, la apertura de un documento PDF descargado de Internet también puede exponer información sensible como la dirección IP de su máquina, su nombre de usuario y, potencialmente, cualquier otra información que se almacena en la máquina donde se abre el documento. Esto se debe a las características interactivas de las aplicaciones PDF.

Cada vez que un PDF se abre para su lectura, acciones como la conexión a un sitio web o la lectura de datos desde el disco pueden ser activadas automáticamente. En teoría, el usuario debería ser advertido de la acción que se realiza y se le debería pedir confirmación. Esta investigación ha puesto de manifiesto que en muchos lugares, especialmente al abrir documentos PDF dentro de un navegador de Internet, las acciones descritas se realizan sin notificación al usuario y sin su consentimiento. El trabajo de la UPM también detalla cómo evitar esta vulneración de los datos del usuario al descargar el documento.

El formato de documentos PDF es un medio poderoso para el intercambio de documentos. Sin embargo el usuario debe ser consciente de los riesgos que corre cada vez que un documento se publica a través de Internet y para ello, los investigadores proporcionan directrices eficaces para minimizar las fugas de información sensible.