Consejos para crear una base de datos efectiva para tus investigaciones

Print More

Créditos: Julia Joppien / Unsplash.

Este año, mientras Colombia fue estremecida por manifestaciones, enfrentamientos armados y acusaciones de abuso de poder por parte de la policía, los periodistas trabajaron duro para hacer seguimiento y contextualizar los sucesos.

A medida que la crisis escalaba, medios independientes y organizaciones de derechos humanos comenzaron a crear sus propias bases de datos para registrar las muertes asociadas con las protestas. Varios organismos registraron más de 70 hasta principios de julio. También comenzaron a registrar alegatos relacionados con el abuso de poder, violencia y detenciones a manifestantes.

Una de estas bases de datos la diseñó Rutas del Conflicto, una organización de medios digitales que usa técnicas de periodismo de investigación y de datos para cubrir el conflicto armado en Colombia, mismo que lleva 50 años. Este año, el grupo cubrió la violencia relacionada con las protestas, que comenzaron por una reforma fiscal propuesta, pero se transformó en protestas más generales en contra del gobierno.

Dirigido por el periodista Óscar Parra, un equipo de reporteros, estudiantes de periodismo, un desarrollador y un diseñador gráfico crearon una base de datos para registrar las muertes durante las protestas que estremecieron ciudades por todo el país.

Recopilando y confirmando información de los sucesos diarios, comunicados de prensa, reportes de organismos sin fines de lucro y entrevistas con testigos, este equipo pudo crear una base de datos verificados de la violencia. Eso les permitió hacer un mapa de los sucesos y explorar quiénes eran las víctimas, mientras que analizaban las circunstancias vinculadas a sus muertes y exponían cómo la violencia policial era responsable de muchos de los incidentes.

Esta no fue la primera vez que Parra creó una base de datos para hacer periodismo. De hecho, Rutas del Conflicto se lanzó en 2012 cuando él cubría un proceso de justicia transicional en el que exparamilitares dieron pruebas sobre su papel en la guerra de Colombia contra las Fuerzas Armadas Revolucionarias de Colombia, FARC.

Parra se dio cuenta que las audiencias a menudo revelaban detalles sobre masacres en las cuales los civiles y los combatientes enemigos habían sido asesinados. “Entonces me pareció que sería bueno agrupar toda esa información en una base de datos para intentar crear herramientas de mapeo y líneas de tiempo”, afirma, añadiendo que las historias personales relacionadas con cada comparecencia no daban una imagen completa de lo que estaba pasando como podría hacerlo un mapa.

Parra usó sus conocimientos como ingeniero en sistemas, su carrera anterior, y su pasión por el periodismo de investigación para capacitar a un grupo de estudiantes, y buscó financiamiento para la primera etapa de Rutas del Conflicto, que más adelante ganaría el reconocimiento del sitio web del año en los Data Journalism Awards 2017.

La Paz en el Terreno es un proyecto de datos que examinó la violencia en Colombia después de la firma de los acuerdos de paz. Imagen: Cortesía de Rutas del Conflicto.

Desde entonces, el equipo ha seguido los mismos pasos para recopilar, organizar y procesar información sobre cómo las víctimas del conflicto sufrieron desapariciones forzosas en ríos a lo largo del país y la relación entre la violencia en Colombia y las disputas por la propiedad de tierras.

Los medios alrededor del mundo están creando sus propias bases de datos al ver una falta de datos oficiales, o que los datos disponibles no son confiables. Otras las han creado como un recurso de periodismo o de investigación mientras ocurren los sucesos, o cuando es necesario comprobar de forma cruzada varias fuentes de información.

“No tener al alcance los datos que necesitas no es razón para no contar una historia que consideras útil para el público”, dice Romina Colman, experta argentina en periodismo de datos y editora de data para OCCRP en América Latina.

Aunque que los periodistas de investigación pueden encontrar información en todo tipo de formatos, informes en PDF, registros impresos, entrevistas, archivos escaneados, documentos escritos a mano, archivos viejos, con la pericia adecuada todos se pueden transformar en bases de datos procesables.

Esto lo aprendí en 2009, cuando trabajé en la creación de una base de datos con Consejo de Redacción (CdR), una asociación miembro de GIJN de periodistas de investigación de Colombia. Queríamos crear una base de datos para socios periodistas que los ayudara a investigar a funcionarios públicos relacionados con temas de corrupción. En ese momento, las herramientas para extraer datos de documentos eran escasas. El periodismo de datos apenas comenzaba en Colombia, y podíamos obtener información limitada por parte del gobierno en formatos digitales manejables.

Así que comenzamos transcribiendo cientos de documentos en papel, muchos escritos a mano, en los que los funcionarios públicos declaraban sus conflictos de intereses y donantes para las campañas. Terminamos con una recopilación de más de dos millones de registros un par de años después, después de agregar otros datos relacionados de más de 20 fuentes oficiales. Eso llevó a realizar varias piezas que revelaban mala praxis política, como esta sobre la distribución sospechosa de tierras, realizada por la revista líder de investigación Semana.

En 2011, a medida que la gestión y análisis de datos ganaban popularidad como técnica de periodismo, Colombia se unió al Open Government Partnership, una iniciativa mundial firmada por 78 países para mejorar la transparencia. Eso nos permitió a mi equipo y a mí seguir creando bases de datos para contar historias relevantes. Una trataba sobre las conexiones entre contralores locales, funcionarios públicos con la tarea de supervisar el trabajo de alcaldes y gobernadores, y las personas que debían ser supervisadas. Otra analizó quién financió las campañas presidenciales y del congreso en 2018 haciendo una comprobación cruzada de los informes de los candidatos con contratos públicos, registros de empresas, y datos históricos de funcionarios públicos.

Aunque los periodistas han estado creando bases de datos desde la década de los 80, la tecnología para extraer datos de sitios web, convertir PDF o archivos escaneados en formatos editables, y combinar grandes cantidades de información ha surgido en los últimos años y se ha vuelto más accesible. Una creciente cantidad de periodistas se han capacitado en lo que solía llamarse reportaje asistido por computadora, ahora conocido como periodismo de datos, y las colaboraciones entre reporteros y desarrolladores o ingenieros en computación han aumentado, haciendo que sea más fácil y viable crear bases de datos con fines periodísticos.

De manera global, los medios han creado bases de datos para investigar bienes confiscados a delincuentes en Italia, muertes por pistolas de descarga eléctrica y el uso de la fuerza por parte de la policía en Estados Unidos, además de colaborar con investigaciones transnacionales. Recientemente, un grupo de periodistas de 12 países creó una base de datos con información que nunca se había sistematizado, implicando 2 460 casos de violencia contra los defensores de derechos ambientales en Latinoamérica. El grupo posteriormente publicó 36 reportajes de investigación sobre estos datos en un proyecto especial llamado Tierra de Resistentes

Algunos de los periodistas del proyecto Tierra de Resistentes. Imagen: Captura de pantalla.

Del otro lado del mundo, el Proyecto de Periodismo sobre Crimen Organizado y Corrupción ganó el Sigma Award 2020 por su investigación sobre la Lavandería Troika, en la cual la OCCRP usó tecnología de vanguardia para extraer datos de más de 1.3 millones de transacciones de cientos de registros bancarios. Este trabajo expuso cómo los oligarcas y políticos rusos invirtieron en secreto sus mal habidos millones en el exterior, lavaron dinero y evadieron impuestos.

Estos proyectos son conocidos por haber reunido información que no estaba disponible públicamente o no era una recopilación centralizada, para narrar historias con un gran impacto, pero que no hubiesen sido posibles sin las bases de datos que les permitieron a los periodistas investigar la historia.

Hay que destacar que los periodistas de investigación también pueden crear bases de datos en una escala más pequeña y aun así tener un impacto enorme. Por lo mismo aquí tienes una guía paso a paso sobre cómo abordar la creación de bases de datos para investigaciones.

1. Prepárate

  • Explora los documentos de los cuáles extraerás los datos. Comprueba si puedes identificar patrones, los elementos repetitivos te darán pistas sobre cómo estructurar tu base de datos. Si comienzas desde cero, obtendrás los registros de entrevistas y de periodismo tradicional, analiza casos o historias similares para encontrar denominadores comunes. Puede ser útil hablar con expertos en esta etapa de exploración.
  • Define el alcance de los datos que recopilarás. ¿Qué período cubrirás? ¿Qué casos se incluirán? (Esto requiere un criterio claro y extremadamente específico). ¿Habrá un límite en la cantidad de registros que procesarás? Los recursos de tu proyecto, tiempo, equipo, fondos y tecnología, te ayudarán a responder estas preguntas.
  • Haz una lista de las preguntas que quieres responder durante la investigación. Esto guiará el diseño de la base de datos.
  • Fomenta el trabajo en equipo, especialmente en esta etapa inicial. Las discusiones entre colegas facilitan estas etapas cruciales y fortalecen tu trabajo. De hecho, así fue que comenzó el proyecto Tierra de Residentes: la base de datos y la investigación se moldeó durante talleres de periodismo de investigación.

2. Diseña y desarrolla la base de datos

  • Comienza definiendo qué será cada registro (fila): casos, personas, lugares, productos, sucesos, países, transacciones, etc.
  • Luego, haz una lista de los elementos que ayudarían a identificar cada registro: estos serán tus campos (columnas). Por ejemplo, si cada fila es una persona, luego los campos podrían ser nombre, número de identificación, edad, ubicación, profesión, etc.
  • Define una clave para cada registro. Los números de identificación son una mejor idea (cuando estén disponibles) que los nombres. También puedes inventar códigos combinando dos o tres aspectos que hagan que cada registro sea único Esta clave será esencial si necesitas hacer comprobaciones cruzadas entre dos o más conjuntos de datos.
  • Aparte de los campos identificadores, incluye otras notas para agregar detalles. Párrafos cortos sirven para la narrativa y para la clasificación, como los que se refieren a características comunes y que establecen categorías. Para estos campos de categoría, es útil pensar sobre qué historia saldría de cada uno. Por ejemplo, puedes incluir una columna de “raza” para analizar si hay un patrón de racismo implicado en cierto conjunto de datos.
  • La uniformidad es fundamental. Usa configuraciones de validación para garantizar que los números se escriban como números, que las fechas estén en el formato correcto, y que las categorías siempre tengan la misma ortografía. En la medida de lo posible, haz que la mayoría de los campos sean de opción múltiple en lugar de preguntas abiertas.
  • Incluye campos para identificar quién agregó cada segmento de información y cuál es la fuente original (pon un enlace también). Esto será útil más adelante si necesitas comprobar algunos datos.
  • Trata de no excederte con la cantidad de campos. Crea solo los que serán relevantes para tu investigación y para el análisis de datos, y los que tu equipo sea capaz de llenar.
  • Tu base de datos puede necesitar más de una tabla, dependiendo de la complejidad del tema y las relaciones entre los elementos involucrados.
  • Asegúrate de que el diseño de la base de datos sea fácil de usar por todos los implicados en el proyecto, sin importar su nivel con la tecnología. “También debe ser una herramienta diseñada especialmente para periodistas y con periodistas”, dice Paul Radu, cofundador y jefe de innovación en OCCRP.
  • Haz que la base de datos se pueda expandir: tu diseño puede ser el primer paso de un proyecto más grande posteriormente, hecho por ti o tu equipo, o por otra persona.

3. Probar, probar, probar

  • Haz una prueba piloto a la base de datos. Llena algunos registros para ver si funciona de la manera que esperas y para evaluar si será útil para las historias en las que piensas trabajar. Una buena manera de estimar cuánto puede tardar el proyecto: mide y calcula el tiempo promedio que tarda agregar una entrada nueva, auditar y luego confirmar la información.
  • Haz una lista de “qué pasaría si…” para analizar posibles obstáculos o escenarios de error y establecer cómo los resolverás.
  • Evalúa la fiabilidad y coherencia de los campos más importantes. Si tienes varias fuentes que dicen cosas distintas, lo que es común con cifras o fechas, puedes mover la información a una columna de detalles en la que puedes describir la discrepancia en lugar de decidir arbitrariamente quién dice la verdad.

4. Llenar la base de datos

  • Aplica lo aprendido en este proceso de pruebas para capacitar en la práctica a los reporteros que recopilarán, agregarán y analizarán la información en la base de datos. Asegúrate de que todos comprendan los conceptos y categorías del mismo modo.
  • Usa herramientas de almacenamiento colaborativo, para que el acceso no dependa de una sola persona. 
  • Divide los datos usando las categorías que definiste en la etapa de diseño para que las reglas estén claras sobre quién recopila cuál información y cómo evitar los duplicados.
  • Si necesitas extraer datos de la web o documentos de texto, concentra tu esfuerzo en lo que es más relevante para tu investigación, y lo que determinará el enfoque de tus historias. En el proyecto de Troika, por ejemplo, determinar el propósito de las transacciones fue clave.
  • Si la cantidad de datos que tienes es muy grande para ser manejable, considera contratar a un profesional externo o una empresa para transcribir los documentos en una base de datos diseñada previamente con tu redacción.

5. Auditar y comprobar la veracidad de los datos

  • Crear la base de datos solo es el primer paso de la investigación. Antes de analizar los datos y sacar conclusiones, tienes que confirmar con las fuentes originales, ya sea que eso implique documentos o los protagonistas de las historias. “Llevamos nuestros datos a los municipios donde ocurrieron estas masacres para que los sobrevivientes pudieran corregir los errores que los medios y otras personas llevaban años diciendo”, explica Parra, sobre uno de sus proyectos en Rutas del Conflicto.
  • Decide qué tipo de auditoría harás, ya que puede variar dependiendo del alcance de tu proyecto. Puedes comprobar todos y cada uno de los registros al hacer una referencia cruzada de los mismos con los documentos originales o puedes realizar comprobaciones aleatorias, pero deben cubrir una amplia cantidad de entradas en la base de datos. En cualquier escenario, la persona que revisa los datos no debe ser la persona que los introdujo.
  • ¿Qué deberías buscar en la auditoría? Errores ortográficos, de números, fechas, duplicados, y entradas que no cumplan con el criterio.
  • Dos ideas para revisar números: haz que el sistema sume automáticamente totales, compáralos con los de los documentos originales y clasifica los datos para encontrar valores atípicos (las cifras muy grandes o muy pequeñas podrían ser un error).
  • La base de datos no estará lista para usarse hasta que se haga una comprobación de veracidad, auditoría de datos, confrontaciones de fuentes personales y revisión legal.

Un mapa detallando los ataques a defensores ambientales en Sudamérica y Centroamérica, del equipo en Tierra de Resistentes. Imagen: Captura de pantalla.

Software

Como periodista, no necesitas convertirte en un desarrollador de sistemas para trabajar en un proyecto con bases de datos. Mejor incluye a alguien con esta habilidad en tu equipo y trabaja en colaboración. Esta lista de herramientas puede ser útil:

  • Aplicaciones para crear formularios web que ayudarán a los periodistas a llenar la base de datos: Google Forms, Node.jsDjango, o Flask.
  • Almacenamiento de bases de datos: MongoDB Atlas Google’s Firebase.
  • Para estructurar y procesar información: Python (que se puede conectar con las opciones de almacenamiento mencionadas arriba), PostgreSQLELK Stack, y Filemaker. 
  • Para extracción de datos y conversión de PDF: Wondershare Pdf Converter Pro, el convertidor básico de Google Documents, iLovePDFSmallpdf, Tabula, Import.io.
  • Por supuesto, siempre puedes descargar los datos del sistema de bases de datos y trabajar con ellos en Excel o Google Spreadsheets. Comenzar con uno de estos también puede ser la mejor opción para proyectos más pequeños.

Recomendaciones y consejos finales

  • La seguridad es un asunto clave en este tipo de proyectos, así que usa comunicaciones cifradas, respalda los datos y considera tu seguridad personal.
  • Aprende a usar Excel, pero también colabora con data scientists y desarrolladores.
  • Toma en cuenta los instrumentos que puedan facilitar el trabajo: herramientas de extracción, formularios en línea para llenar la base de datos, convertidores de PDF, escaneo con reconocimiento óptico de caracteres y procesadores de texto masivo. En OCCRP, crearon Aleph, una plataforma que hace casi todas estas tareas, ayuda con el acceso sencillo, búsqueda, transliteración y exploración de grandes volúmenes de registros de documentos en múltiples formatos.
  • Ya que estas iniciativas usualmente requieren equipos grandes, decide quién será el líder del proyecto y toma en cuenta las recomendaciones para colaboraciones de investigación.
  • Mantén la transparencia en la metodología y los recursos para tu audiencia, asumiendo que los protocolos de seguridad lo permiten. Enseña una muestra de los documentos originales a partir de los cuales creaste la base de datos para fomentar la credibilidad.
  • Publica tu información de contacto junto con la investigación para que los lectores puedan comunicarse con preguntas o si encuentran un error en la base de datos.

Recursos adicionales

Periodismo de datos: experiencias detrás de proyectos reconocidos de América Latina

Cómo reporteros analizaron 20 años de datos sobre incendios en áreas protegidas de Venezuela

Mis herramientas favoritas: Gustavo Faleiros


Miriam Forero Ariza es una periodista de datos e investigación independiente colombiana cuyo trabajo ha sido publicado por Vice, Colombiacheck y El Espectador. Tiene más de una década de experiencia en investigaciones colaborativas, análisis de datos y visualizaciones. Es coautora del Manual Iberoamericano de Periodismo de Datos.

Leave a Reply

Your email address will not be published.