Démarrage du crawl large
En mars 2011, nous avons lancé un projet de web crawl à grande échelle en utilisant une liste de départ et une configuration de crawler. Ce processus a été réalisé grâce au nouveau logiciel HQ destiné à un crawl distribué, développé par Kenji Nagahashi.
Contenu du jeu de données
Le démarrage du crawl a eu lieu le 09 mars 2011 et a généré des chiffres impressionnants :
- Nombre de captures : 2,713,676,341
- Nombre d’URLs uniques : 2,273,840,159
- Nombre d’hôtes : 29,032,069
La liste des semences pour ce crawl était composée des 1 million de sites web les plus visités selon Alexa, récupérée peu avant le début du crawl. Nous avons utilisé le logiciel Html Heritrix (version 3.1.1-SNAPSHOT) et respecté les directives du fichier robots.txt. Le périmètre de ce crawl était relativement large, avec quelques sites manuellement exclus.
Un crawl expérimentale
Cependant, il s’agissait d’un crawl quelque peu expérimental pour notre équipe, car nous utilisions un logiciel récemment mis au point pour alimenter les crawlers avec des URLs. Nous avons rencontré plusieurs problèmes opérationnels. Par exemple, dans de nombreux cas, nous n’avons pas pu analyser tous les objets intégrés et liés à une page, car leurs URLs étaient ajoutées à des files d’attente qui ont rapidement dépassé la taille prévue pour ce crawl. Par conséquent, certaines ressources n’ont jamais été atteintes.
Nous avons également effectué des crawls répétés de certains sites gouvernementaux argentins, ce qui pourrait fausser les résultats par pays. Depuis cet exemple, nous avons apporté de nombreuses modifications à notre approche des crawls à grande échelle, mais nous avons choisi de rendre ces données accessibles dans leur forme brute pour que d’autres puissent les explorer.
Accès aux données de crawl
Si vous êtes intéressé par cet ensemble de données de crawl, n’hésitez pas à nous contacter à info at archive dot org. Veuillez spécifier qui vous êtes et vos intentions concernant l’utilisation des données. Bien que nous ne puissions pas répondre favorablement à toutes les demandes, chaque requête sera examinée avec soin.
Laisser un commentaire