Los papeles de Pandora: cómo Python y el aprendizaje automático han sido clave en una investigación mundial con datos masivos

La noticia mundial que acapara los medios son los descubrimientos de los bautizados como Papeles de Pandora o ‘Pandora Papers’ que han conseguido desvelar cómo políticos y personas millonarias de todo el mundo tienen empresas offshore para evitar el pago de impuestos.

Esta investigación tiene como gran particularidad la inmensa cantidad de datos que ha tenido que investigar y cómo se ha usado la tecnología de análisis de aprendizaje automático y los lenguajes de programación para conseguir descifrar la información masiva, tal y como han desvelado los propios investigadores.

Bajo el paraguas del International Consortium of Investigative Journalists o Consorcio Internacional de Periodistas de Investigación (ICIJ, que agrupa a 280 periodistas de investigación de más de 100 países) se ha podido conocer los negocios opacos de 600 personas españoles (y miles en todo el mundo, con mandatarios incluidos como el exprimer ministro británico Tony Blair o el presidente chileno, Sebastián Piñera), que les permiten ahorrarse enormes cantidades de dinero en concepto de impuestos.

Los propios investigadores han denominado este estudio como un hecho «sin precedentes» por la inmensa cantidad de información que tenían que descifrar y han explicado cómo las tecnologías de análisis de datos y el lenguaje de programación Python han sido ayudas clave.

Casi 3 teras de datos en varios idiomas

Los 2,94 terabytes de datos, filtrados al ICIJ y compartidos con medios de comunicación de todo el mundo, llegaron en varios formatos: como documentos, imágenes, correos electrónicos, hojas de cálculo y más. En total, se recolectaron 11,9 millones de registros que «estaban en su mayoría desestructurados», como dicen los investigadores y como se puede ver en el gráfico anterior.

Por un lado, llegaron de 14 proveedores y cada una de estas firmas tiene diferentes formas de almacenar y presentar su información, por lo que a la hora de descifrar las informaciones masivas no fue fácil el uso de un patrón que fuera igual para todos los datos.

Por su parte, más de la mitad de los archivos, 6,4 millones, eran documentos de texto, incluidos más de 4 millones de PDF, algunos de los cuales tenían más de 10.000 páginas. Los documentos incluían pasaportes, extractos bancarios, declaraciones de impuestos, registros de constitución de empresas, contratos inmobiliarios y cuestionarios de diligencia debida.

También había más de 4,1 millones de imágenes y correos electrónicos en la filtración y las hojas de cálculo constituían el 4% de los documentos, es decir, más de 467.000. Los registros también incluían presentaciones de diapositivas y archivos de audio y vídeo.

Dice el informe que «los Papeles de Pandora supusieron un nuevo reto porque los 14 proveedores tenían diferentes formas de presentar y organizar la información. Algunos organizaban los documentos por cliente, otros por varias oficinas y otros no tenían ningún sistema aparente. Un solo documento contenía a veces años de correos electrónicos y archivos adjuntos. Algunos proveedores digitalizaron sus registros y los estructuraron en hojas de cálculo; otros mantuvieron archivos en papel que fueron escaneados».

Eran datos de más de 27.000 empresas y 29.000 de los llamados beneficiarios finales (más del doble del número de beneficiarios finales identificados en los Papeles de Panamá).

Además de todo esto, los documentos llegaron en inglés, español, ruso, francés, árabe, coreano y otros idiomas, «lo que exigió una amplia coordinación entre los socios del ICIJ», según explican desde el equipo de trabajo.

Cómo la tecnología dio forma a estos documentos

Con estas cantidades masivas de información, los investigadores se encontraron con el enorme reto de poder sacar conclusiones y descubrir los secretos sin pasar años y años de estudio en esta tarea. Y las tecnologías fueron clave.

Sólo el 4% de los archivos estaban estructurados, con datos organizados en tablas (hojas de cálculo, archivos csv y algunos «archivos dbf»). Para explorar y analizar la información de los Pandora Papers, el ICIJ identificó los archivos que contenían información sobre la propiedad efectiva por empresa y jurisdicción y la estructuró en consecuencia.

En los casos en los que la información venía en forma de hoja de cálculo, el ICIJ eliminó los duplicados y los combinó en una hoja de cálculo maestra. En el caso de los archivos PDF o de documentos, el ICIJ utilizó lenguajes de programación como Python para automatizar la extracción y la estructuración de los datos en la medida de lo posible.

En los casos más complejos, el ICIJ utilizó el aprendizaje automático y otras herramientas, como los programas Fonduer y Scikit-learn, para identificar y separar formularios específicos de documentos más largos. Algunos formularios de proveedores estaban escritos a mano y en estos casos hubo que extraer la información manualmente.

Una vez extraída y estructurada la información, el ICIJ generó listas que vinculaban a los beneficiarios finales con las empresas que poseían en jurisdicciones específicas, en caso de disponer de esa información.

Tras estructurar los datos, el ICIJ utilizó plataformas gráficas (Neo4J y Linkurious) para generar visualizaciones y hacerlas buscables. Esto permitió a los reporteros explorar las conexiones entre personas y empresas a través de los proveedores.

Herramientas propias para compartir información de forma segura

Para compartir la información de forma segura con los medios de comunicación, el ICIJ usó Datashare, herramienta desarrolladda por el equipo técnico dea misma organización.

«La función de búsqueda por lotes de Datashare ayudó a los reporteros a relacionar algunas figuras públicas con los datos», explican.El ICIJ utilizó el aprendizaje automático para etiquetar estos archivos en Datashare, permitiendo a los periodistas excluirlos de sus búsquedas.

«Nuestros 150 medios de comunicación asociados compartieron consejos, pistas y otra información de interés utilizando el I-Hub global del ICIJ, una plataforma segura de medios sociales y de mensajería», añade la información.

Un reto mucho mayor que los Papeles de Panamá’

Para hacernos una idea del reto que suponía esta nueva investigación, recuerdan los periodistas que en los Papeles de Panamá, descubiertos en 2016 (y para los que la ICIJ también tiró de tecnología creando un buscador para que cualquier persona pudiese encontrar información de una forma más sencilla), la investigación usó 2,6 terabytes de datos en 11,5 millones de documentos de un único proveedor.

La investigación de los Paradise Papers de 2017 (gracias a la que se pudo saber que Rusia financió inversiones en Facebook y Twitter a través de un socio del yerno de Trump) se basó en una filtración de 1,4 terabytes en más de 13,4 millones de archivos procedentes de un bufete de abogados offshore, Appleby, así como de Asiaciti Trust, un proveedor con sede en Singapur, y de registros corporativos gubernamentales en 19 jurisdicciones.

Fuente: Genbeta

¿Quieres dar un salto en tu formación, y aprender Python? En EducaciónIT contamos con una amplia oferta educativa, en la cual puedes dar tus primeros pasos en programación con Python, utilizarlo para convertirte en un Data Scientist, o sumergirte en el desarrollo web con Python y Django. Conoce más de nuestros cursos de Python.