El archivo web como herramienta de conocimiento para el presente y el futuro
Que los archivos son un bien necesario para la sociedad no es ningún secreto. Los archivos preservan, custodian y dan acceso a colecciones documentales y de información para que las sociedades, en general, y las personas, en particular, puedan conocer su pasado y puedan, incluso, vislumbrar su futuro a través de hechos pasados. Ahora bien, ¿cómo recopilar toda la información que hay en la web?… Por suerte la Biblioteca Nacional de España ya se está ocupando de eso.
La Biblioteca Nacional de España a través de su ‘archivo web’ recolecta de manera automatizada los sitios web de España. La finalidad de este archivo web es la preservación y difusión de estos recursos “nacidos digitales” para que puedan servir como herramienta de conocimiento para generaciones presentes y futuras. Hay iniciativas que ya realizan este tipo de recolecciones, como por ejemplo Internet Archive, PADICAT (Patrimonio Digital de Cataluña) o ONDARENET (Archivo del Patrimonio Digital Vasco).
El pasado mes de julio la Biblioteca Nacional de España terminó la primera recolección web del dominio .es. El software de recolección automática recorrió 1,8 millones de dominios y se descargó un total de 460 millones de archivos. El resultado final fue que el 87% de los dominios .es en activo fueron recolectados y el tamaño de la colección a guardar alcanzó los 20 Terabytes. [A tener en cuenta: No se limita la recolección al dominio .es porque hay mucho patrimonio documental fuera de dicho dominio]