Détails du large crawl
Ce large crawl web a été lancé avec une liste de départ et une configuration du robot datant de mars 2011. Nous avons utilisé le nouveau logiciel HQ pour le crawling distribué sous la direction de Kenji Nagahashi.
Informations sur l’ensemble de données
Voici les informations clés relatives à cet ensemble de données :
– Date de début du crawl : 09 mars 2011
– Date de fin du crawl : 23 décembre 2011
– Nombre de captures : 2 713 676 341
– Nombre d’URLs uniques : 2 273 840 159
– Nombre d’hôtes : 29 032 069
Processus et limitations
La liste de départ pour ce crawl comprenait les sites web les plus populaires d’Alexa, recueillie juste avant le début du crawl. Nous avons utilisé le logiciel de crawler Heritrix (version 3.1.1-SNAPSHOT) et avons respecté les directives du fichier robots.txt. L’étendue du crawl n’a pas été restreinte, mis à part quelques sites exclus manuellement.
Cependant, il s’agissait d’un crawl quelque peu expérimental, car nous utilisions un logiciel récemment développé pour alimenter les URL aux robots, et nous avons rencontré plusieurs problèmes opérationnels. Par exemple, dans plusieurs cas, nous n’avons peut-être pas réussi à explorer tous les objets embarqués et liés dans une page, car les URL de ces ressources ont été ajoutées dans des files d’attente qui ont rapidement surpassé la taille prévue du crawl.
Nous avons également effectué des crawls répétés de certains sites gouvernementaux argentins, ce qui peut fausser les résultats par pays. Depuis cet exemple particulier, nous avons réalisé de nombreuses améliorations dans la manière dont nous procédons à ces larges crawls, mais nous souhaitions rendre les données accessibles, avec leurs imperfections, pour que les gens puissent expérimenter.
Demande d’accès aux données du crawl
Pour ceux qui souhaitent accéder à cet ensemble de données de crawl, nous vous invitons à nous contacter à l’adresse info@archive.org en précisant votre identité et vos intentions quant à l’utilisation de ces données. Nous ne pourrons pas forcément dire « oui » à toutes les demandes, car nous sommes simplement en train d’évaluer si cela est une bonne idée, mais chaque demande sera prise en considération.
Laisser un commentaire