Aperçu du crawl large
En mars 2011, nous avons lancé un crawl large avec une liste initiale de semences et une configuration de crawler. Ce projet a été réalisé avec le nouveau logiciel HQ dédié à l’exploration distribuée, développé par Kenji Nagahashi.
Détails des données récoltées
Les informations clés de ce crawl sont les suivantes :
- Date de début du crawl: 09 mars 2011
- Nombre de captures: 2,713,676,341
- Nombre d’URLs uniques: 2,273,840,159
- Nombre d’hôtes: 29,032,069
Pour cette opération, la liste de semences était constituée des 1 million de sites web les plus visités selon Alexa, récupérée juste avant le début du crawl. Nous avons utilisé le logiciel de crawl Heritrix (3.1.1-SNAPSHOT) tout en respectant les directives robots.txt. La portée de cette exploration n’était pas limitée, si ce n’est pour quelques sites exclus manuellement.
Défis rencontrés et leçons apprises
Ce crawl était quelque peu expérimental pour notre équipe : nous avons utilisé un logiciel récemment développé pour alimenter les crawlers en URL, ce qui a engendré certains problèmes opérationnels. Par exemple, il est possible que nous n’ayons pas crawlé tous les objets incorporés ou liés dans une page, car leurs URLs étaient ajoutées dans des files d’attente qui ont rapidement dépassé la taille prévue du crawl.
Nous avons également effectué des crawls répétés de certains sites gouvernementaux argentins, ce qui peut entraîner un biais dans l’analyse des données par pays. Depuis cet exemple, nous avons considérablement modifié notre méthode de réalisation des crawls larges.
Cependant, nous souhaitions rendre ces données accessibles, même avec leurs imperfections, pour encourager l’expérimentation. Une analyse plus approfondie du contenu a également été réalisée afin d’en tirer davantage de connaissances.
Accès au jeu de données
Pour toute personne intéressée à accéder à cet ensemble de données, veuillez nous contacter à info@archive.org en précisant votre identité et vos intentions. Bien que nous ne puissions pas garantir une réponse positive à toutes les demandes, chaque requête sera examinée attentivement.
Laisser un commentaire