Configuración de accesibilidad

Tamaño del texto

opciones de color

monocromo color discreto oscuro

Herramientas de lectura

Aislamiento regla

The Internet Archive and its Wayback Machine are invaluable tools for investigative journalists. Image: Shutterstock

Imagen: Shutterstock.

El Archivo de Internet es una biblioteca sin fines de lucro que, este año, celebra 25 años avanzando en la misión de dar “acceso universal a todo el conocimiento”. Es mejor conocido por el proyecto Wayback Machine  (servicio en el que yo trabajo actualmente) donde encontrarás gran parte de la web pública. Archivamos páginas web a un ritmo de más de mil millones de direcciones URL por día.

Existen muchas maneras en las que periodistas, investigadores, verificadores, activistas y el público general acceden a Wayback Machine cada día. Miles de artículos han hecho referencia a nuestros servicios. De hecho, en la serie compilatoria de GIJN para el 2020, Mis herramientas favoritas, varios periodistas destacados la identificaron como un pilar importante de su trabajo.

A continuación una introducción para los reporteros interesados en probar Wayback Machine en su próxima investigación.

Archivando direcciones URL 

Si publicas un artículo que hace referencia a un sitio web y los dueños eliminan páginas clave, o el sitio en sí mismo, tal vez se pierdan para siempre si no han sido archivadas. ¡No dejes que eso te ocurra!

Decenas de millones de direcciones URL son archivadas cada día por los usuarios con el servicio “guardar página ahora” de Wayback Machine. Cualquiera puede enviar una dirección URL y, si inicias sesión con una cuenta de archivo gratuita, también puedes solicitar archivar cualquier “enlace externo” – direcciones externas dentro de la página original que quieres capturar – y recibir un reporte de esta captura a tu correo electrónico.  Otra característica útil es que puede descargar las URL capturadas en un archivo WACZ y revisarlas/procesarlas con sus propias herramientas.

Guardar la página ahora (en inglés: Save Page Now) puede realizar una gran cantidad de archivado automatizado de Twitter. Por ejemplo, puede archivar fácilmente hasta 3.200 tweets recientes de cualquier perfil de Twitter si se inserta su URL y se marca la opción correspondiente.

Aquí está el detalle técnico: si tienes una lista de direcciones URL que quieres archivar, añádelas a la “columna A” de una hoja de cálculo de Google y envíala a través del servicio de Google Sheets “guardar página ahora” que puedes encontrar aquí. Las columnas B, C y D serán completadas con un código de estado, una dirección URL archivada y un marcador si la dirección ha sido archivada por Wayback Machine antes.

Otra opción es remitir una sola dirección URL, enviándola a “spn@archive.org” y, si añades «capture outlinks» (enlaces externos de captura) al asunto, estos también se conservarán. De nuevo, recibirás un correo de reporte cuando el proceso se haya completado.

Finalmente, para los más competentes técnicamente, la Wayback Machine proporciona una API (Application Programming Interface por sus siglas en inglés), o interfaz de programación, que permitirá la integración dentro del software de tus flujos de trabajo existentes, o al construir nuevas aplicaciones, para ayudarte a automatizar el trabajo. Un ejemplo de esto es la forma en la que Meedan, organización tecnológica sin fines de lucro con sede en San Francisco que fortalece el periodismo global, ha integrado su servicio de “check” con la Wayback Machine. 

Compara los cambios en diferentes versiones archivadas

¿Alguna vez has querido descubrir y mostrar la diferencia entre dos versiones del mismo sitio web? Tal vez para ver como una compañía o particular ha cambiado o adaptado la redacción en su página. Puedes hacerlo con la función de “cambios”.

Para intentarlo, introduce cualquier URL archivada en la función de búsqueda de la página de inicio de Wayback Machine. Luego selecciona la opción de “cambio”.

Te mostrará una lista de versiones archivadas de diversas horas y fechas; estos cambios se identifican con un código de color para representar los grados de cambio de una dirección URL archivada a la otra.

Luego, selecciona dos versiones de la URL con marcas de tiempo y estas se mostrarán una al lado de la otra, con las diferencias de texto destacadas en texto azul y amarillo. Esta función fue utilizada para mostrar cómo un bloguero británico y consejero político intentó reescribir la historia, y se muestra en la siguiente captura de pantalla.

The Wayback Machine showing how Dominic Cummings made stealth additions (in blue) to a blog post. Image: Screenshot

Imagen: captura de pantalla de Wayback Machine.

Búsquedas de archivos más profundas

Utiliza la opción de URL de Wayback Machine para buscar subURL de cualquier URL capturada utilizando palabras clave. Podrás filtrar y ordenar fácilmente los resultados para localizar capturas interesantes.

Nuestros ingenieros han indexado archivos y colecciones de sitios web específicos y Wayback Machine ofrece una interfaz completa de búsqueda de texto para ellos. Consulta «Búsqueda de colecciones» en la parte inferior de la página de inicio de Wayback Machine. Los aspectos a destacar incluyen sitios web perdidos como  poetry.com, Russian Independent Media y una colección de 749M PDFs. Otro lugar donde puedes ver los servicios disponibles para colecciones es la página de inicio de Internet Archive. Si deseas que indexemos colecciones específicas de material archivado (por ejemplo, que coincidan con varios patrones de URL), comunícate con nosotros por medio del correo info@archive.org.

Usar API con la Wayback Machine

Además de una API para apoyar el proceso de archivo a través del servicio “guardar página ahora”, también hay varias API que pueden ser utilizadas para consultar la Wayback Machine y ver si ciertas direcciones URL en específico han sido archivadas. Puedes leer más acerca de ellas aquí.

Como la mayoría de sus servicios, Wayback no pone límites formales a la frecuencia de uso de sus API. Sin embargo, ocasionalmente puede implementar medidas de regulación. Si encuentras cualquier tipo de problema relacionado a la Wayback Machine, envíanos un correo electrónico o un mensaje directo en Twitter; apoyar a los periodistas es una enorme prioridad para nosotros.

Añadir contexto a las páginas archivadas

Reconocemos que el contexto y la procedencia son vitales para la completa comprensión de cualquier archivo. Con esto en mente, hemos comenzado a añadir carteles de contexto para ayudar a los clientes a entender mejor nuestros recursos archivados. Este tipo de carteles pueden ser utilizados cuando un sitio web archivado ha sido eliminado o cuando una organización de investigación reconocida ha escrito sobre el sitio.

Imagen: Wayback Machine incluye encabezados amarillos que se vinculan a usos externos de las páginas archivadas. La imagen es una captura de pantalla.

La procedencia de cada URL archivada que compone una página web puede ser crítica para comprender dicha página. Por ejemplo, ¿las imágenes de una página archivada fueron capturadas a la misma hora y en la misma fecha que otros elementos de la página? Puedes conocer esa información haciendo clic en el enlace “acerca de esta captura” en la esquina superior derecha de cada página de reproducción de la URL archivada.

El cuidado y la atención que le hemos prestado a la integridad de nuestros archivos, y la transparencia que le brindamos a su procedencia a lo largo de los años, ha contribuido a la confianza general que la gente tiene en Wayback Machine, razón por la cual la evidencia almacenada en la Wayback Machine ha sido aceptada por múltiples tribunales alrededor del mundo.

Si quisieras que consideráramos agregar contexto a archivos que has creado con nuestra función de “guardar página ahora”, por favor contáctanos.

Extensiones de navegador

Como podría esperarse, tenemos extensiones de navegador disponibles para Safari, Firefox y Chrome así como aplicaciones móviles para iOS. Y, como un regalo especial, nos asociamos con Brave – un motor de búsqueda – para crear una detección nativa de errores 404 (y otras condiciones de error) directamente en su navegador para que Wayback Machine pueda apoyar las experiencias de navegación web de una manera muy sencilla.

Por encima de todo, recuerda que el apoyo del Archivo de Internet y de la Wayback Machine están a solo un correo o mensaje directo de Twitter de distancia. Por favor comparte tus preguntas, peticiones, reportes de error e historias de éxito. Queremos oír especialmente aquello que no te gusta de nuestros servicios, o cuáles funciones crees que debemos mejorar o añadir. De esa manera podemos hacer un mejor trabajo apoyando los deseos y necesidades de los periodistas.

¡Pero espera! Hay más…

Además de archivar gran parte de la web pública, el Archivo de Internet conserva y pone a disposición otras colecciones de material, incluyendo más de 25 millones de trabajos académicos de libre acceso a través del servicio de Archivo de Internet Académico, cerca de 30 millones de ebooks y textos que pueden ser previsualizados, prestados o descargados; y millones de horas de noticias de TV archivadas (docenas de estaciones durante la mayor parte de 10 años) se encuentran a través de la indexación de texto completo de los subtítulos asociados.

Para mantenerte al día con los proyectos y servicios del Archivo de Internet y la Wayback Machine, síguenos en Twitter @internetarchive y @waybackmachine y lee nuestras publicaciones de blog.

Lecturas adicionales

Desde cámaras secretas hasta la Dark Web: 7 de las mejores TED Talks para periodistas de investigación

Nuevas herramientas para organizar tu espacio de trabajo en casa y mejorar tus reportajes

Qué pueden aprender los periodistas del equipo investigativo de Navalny en Rusia


Mark Graham thumbnail imageMark Graham ha dirigido la Wayback Machine por más de cinco años. Antes fue vicepresidente de NBC News Digital. Graham también ejecutó el primer servicio de correo electrónico entre Estados Unidos y la Unión Soviética; inició un proyecto para construir la primera interfaz basada en la web para un sistema de discusión en línea; y ayudó a dirigir iVillage, un servicio en línea para mujeres. 

Republica nuestros artículos de forma gratuita, en línea o de manera impresa, bajo una licencia Creative Commons.

Republica este artículo


Material from GIJN’s website is generally available for republication under a Creative Commons Attribution-NonCommercial 4.0 International license. Images usually are published under a different license, so we advise you to use alternatives or contact us regarding permission. Here are our full terms for republication. You must credit the author, link to the original story, and name GIJN as the first publisher. For any queries or to send us a courtesy republication note, write to hello@gijn.org.

Leer siguiente