Présentation de l’exploration web
Le web wide crawl a été lancé avec des configurations initiales de liste de graines et des paramètres de crawler en mars 2011. Pour cette campagne, nous avons utilisé le logiciel HQ développé par Kenji Nagahashi pour des explorations distribuées.
Détails des données collectées
Voici les principales statistiques du jeu de données :
Date de démarrage du crawl : 09 mars 2011
Nombre de captures : 2,713,676,341
Nombre d’URLs uniques : 2,273,840,159
Nombre d’hôtes : 29,032,069
La liste de graines pour ce crawl provenait des 1 million de sites web les plus populaires selon Alexa, récupérée près de la date de début du crawl. Pour ce faire, nous avons utilisé le logiciel de crawler Heritrix (3.1.1-SNAPSHOT) et respecté les directives robots.txt. La portée de l’exploration n’était pas limitée, à l’exception de quelques sites exclus manuellement.
Particularités de cette exploration
C’était un crawl quelque peu expérimental, car nous utilisions un nouveau logiciel pour alimenter les URLs aux crawlers, et nous avons rencontré certains problèmes opérationnels. Par exemple, il est possible que nous n’ayons pas exploré tous les objets intégrés et liés sur une page, car les URLs de ces ressources ont été ajoutées à des files d’attente qui ont rapidement dépassé la taille prévue du crawl.
Nous avons également effectué des crawls répétés de certains sites gouvernementaux argentins, ce qui pourrait fausser les résultats par pays. Depuis cet exemple, nous avons apporté de nombreux changements dans notre manière de réaliser ces explorations larges, mais nous souhaitons rendre les données accessibles « telles quelles » pour favoriser l’expérimentation.
Accès aux données de crawl
Si vous souhaitez avoir accès à cet ensemble de données de crawl, contactez-nous à info at archive dot org et indiquez-nous qui vous êtes ainsi que ce que vous avez l’intention d’en faire. Nous pourrions ne pas être en mesure d’accepter toutes les demandes, car nous essayons encore de déterminer la viabilité de cela, mais toutes les demandes seront prises en considération.
Laisser un commentaire