La Biblioteca Nacional guarda todos los sitios web con dominio .es para preservar el patrimonio documental español en internet

Mª del Mar Pérez Morillo (Área de Gestión del Depósito de Publicaciones en Línea (BNE).

La Biblioteca Nacional de España (BNE) ha lanzado la recolección que lleva a cabo anualmente de todos los sitios web con dominio .es como parte de su labor para preservar el patrimonio documental español en internet, según informó esta institución el 4 de agosto de 2020. En este año, la web española está formada por más de 1.930.000 sitios web, de los que se han recolectado en torno a 50 terabytes de información. Aunque el número de dominios ha aumentado con respecto al año anterior, la cantidad de información publicada es ligeramente menor. Según explicó la BNE, «lo que se publica en internet es objeto de conservación desde 2009, más aun teniendo en cuenta que la información en línea es especialmente efímera. La BNE, por ley, tiene la finalidad de conservar este patrimonio para que no se pierda. Por ello realiza recolecciones masivas de los sitios web con dominio .es, sin exclusiones ni selecciones, lo que permite obtener un panorama global de la web española».

La BNE informó: «Para guardar los contenidos, la Biblioteca utiliza un software de recolección automático que utiliza unas arañas que rastrean la web y guardan los contenidos pinchando y descargando la información de los enlaces que encuentra. El contenido se guarda en un formato que permite la consulta de los sitios web tal como se haría navegando por Internet. A las recolecciones se les establece un límite de tamaño de descarga por cada sitio web para evitar la sobrecarga y saturación del sistema de recolección. La BNE establece un límite de 150 Megabytes por cada sitio web, por lo que una vez llegado a este límite la recolección para, para continuar con el siguiente sitio web. Este año y con esta configuración, se ha logrado guardar el 87% de los sitios web de manera completa».

Proceso de recolección
«Las recolecciones de la web (web crawls en inglés) se llevan a cabo con robots de rastreo (web crawlers), que recorren la web a partir de una serie de URL iniciales llamadas seeds o semillas. Los crawlers toman estas URL como punto de partida para comenzar la recolección, y van guardando de forma automática cada página o sitio identificado, recorriendo todos los hiperenlaces que encuentran y añadiéndolos a la lista de URL que visitarán recursivamente, almacenando de forma ordenada los documentos, vídeos, imágenes, etc. que se ocultan tras cada vínculo. Estos contenidos son indexados posteriormente con el fin de poder realizar búsquedas sobre ellos».

Información para webmasters
«Heritrix es un programa de software diseñado por Internet Archive y que usan la mayoría de instituciones en el mundo que rastrean y archivan páginas y sitios web. Heritrix fue diseñado para minimizar el impacto perturbador de las recolecciones sobre la actividad normal de los sitios web. El ritmo de rastreo del programa se puede ajustar según determinados parámetros.
La versión de Heritrix que se utiliza actualmente es la 3. Para llevar a cabo todas las acciones relativas a la recolección web, el robot rastreador se identifica con los siguientes atributos:
userAgentTemplate: Mozilla/5.0 (compatible; bne.es_bot; +@OPERATOR_CONTACT_URL@)
operatorFrom: archivoweb@bne.es
operatorContactUrl: http://www.bne.es/es/Colecciones/ArchivoWeb/AvisoWebmasters/index.html
organization: Biblioteca Nacional de España
Por el mandato legal que tiene la BNE en materia de depósito legal, el robot ignora los ficheros robots.txt».

Otras recolecciones: el coronavirus en la web
«Las recolecciones masivas se complementan con las selectivas, que recogen con mayor profundidad y frecuencia una muestra más pequeña de sitios web en cualquier dominio (.com,.net, etc.) que se seleccionan por su relevancia para la historia, la sociedad y la cultura. Para realizar estas recolecciones la BNE trabaja en colaboración con especialistas de las bibliotecas regionales.
Actualmente, una de las recolecciones selectivas en las que se está trabajando con más intensidad es la que reúne los sitios web relacionados con el Coronavirus y la situación que ha provocado su propagación. Esta colección reúne más de 4.000 webs que abarcan múltiples tipos de sitios relacionados con la enfermedad, la situación creada y sus consecuencias. Contiene tanto páginas de índole más oficial (organismos públicos, partidos políticos, medios de comunicación…) como páginas surgidas de una manera más espontánea, como iniciativas ciudadanas y vecinales, actividades para hacer en familia, memes, etc. También cuenta con más de 1.300 perfiles y temas de redes sociales. Hasta el momento se han recolectado 30 Terabytes de información, más de la mitad de lo que se guarda en una recolección masiva. El número de páginas que están apareciendo es inmenso y en su mayoría serán sitios que desaparecerán una vez haya pasado esta gran crisis. La colección de sitios web será una de las mayores fuentes de información sobre el Covid19.
Toda la información conservada en el Archivo de la Web Española es consultable a través de terminales informáticos situados en las diferentes salas de la Biblioteca Nacional de España, así como desde las bibliotecas regionales de las Comunidades Autónomas».

Información: archivoweb@bne.es