Wide crawl started in March 2011

Démarrage du crawl large

En mars 2011, nous avons lancé un projet de web crawl à grande échelle en utilisant une liste de départ et une configuration de crawler. Ce processus a été réalisé grâce au nouveau logiciel HQ destiné à un crawl distribué, développé par Kenji Nagahashi.

Contenu du jeu de données

Le démarrage du crawl a eu lieu le 09 mars 2011 et a généré des chiffres impressionnants :

  • Nombre de captures : 2,713,676,341
  • Nombre d’URLs uniques : 2,273,840,159
  • Nombre d’hôtes : 29,032,069

La liste des semences pour ce crawl était composée des 1 million de sites web les plus visités selon Alexa, récupérée peu avant le début du crawl. Nous avons utilisé le logiciel Html Heritrix (version 3.1.1-SNAPSHOT) et respecté les directives du fichier robots.txt. Le périmètre de ce crawl était relativement large, avec quelques sites manuellement exclus.

Un crawl expérimentale

Cependant, il s’agissait d’un crawl quelque peu expérimental pour notre équipe, car nous utilisions un logiciel récemment mis au point pour alimenter les crawlers avec des URLs. Nous avons rencontré plusieurs problèmes opérationnels. Par exemple, dans de nombreux cas, nous n’avons pas pu analyser tous les objets intégrés et liés à une page, car leurs URLs étaient ajoutées à des files d’attente qui ont rapidement dépassé la taille prévue pour ce crawl. Par conséquent, certaines ressources n’ont jamais été atteintes.

Nous avons également effectué des crawls répétés de certains sites gouvernementaux argentins, ce qui pourrait fausser les résultats par pays. Depuis cet exemple, nous avons apporté de nombreuses modifications à notre approche des crawls à grande échelle, mais nous avons choisi de rendre ces données accessibles dans leur forme brute pour que d’autres puissent les explorer.

A lire aussi  Les travaux de construction du chemin de fer TGV Beijing-Shanghai commencent le 18 janvier prochain

Accès aux données de crawl

Si vous êtes intéressé par cet ensemble de données de crawl, n’hésitez pas à nous contacter à info at archive dot org. Veuillez spécifier qui vous êtes et vos intentions concernant l’utilisation des données. Bien que nous ne puissions pas répondre favorablement à toutes les demandes, chaque requête sera examinée avec soin.

Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *