Introduction
Le wid crawl est un processus essentiel d’exploration web qui a commencé en mars 2011. L’importance de ce type de collecte de données réside dans sa capacité à fournir une vaste gamme d’informations sur les contenus disponibles en ligne. Ce projet a utilisé un logiciel innovant, développé par Kenji Nagahashi, permettant une collecte distribuée efficace. Dans cet article, nous allons plonger dans les détails de ce crawl et examiner les résultats obtenus.
Détails de la collecte de données
La collecte a été lancée le 9 mars 2011 et a abouti à un ensemble de données impressionnant : 2 713 676 341 captures de pages, 2 273 840 159 URLs uniques et environ 29 032 069 hôtes différents. La liste de départ pour cette exploration a été constituée des 1 million de sites web les plus populaires, extraite juste avant le début du crawl. Le logiciel utilisé, Heritrix (3.1.1-SNAPSHOT), a respecté les directives robots.txt.
Nous n’avons pas imposé de limites strictes sur la portée du crawl, si ce n’est pour quelques sites exclus manuellement. Cet effort a cependant été un peu expérimental car nous avons employé un nouveau système pour alimenter les robots en URLs, ce qui a engendré certains problèmes opérationnels.
Observations et ajustements
Il est à noter que durant cette collecte, nous n’avons pas toujours réussi à explorer tous les objets intégrés et liés à chaque page. Les URLs de ces ressources étaient souvent ajoutées à des files d’attente qui ont rapidement dépassé la taille prévue du crawl, ce qui a conduit à plusieurs cas d’objets non explorés. De plus, certaines collectes répétées de sites gouvernementaux argentins ont pu fausser les résultats par pays.
Depuis ce projet, nous avons effectué de nombreuses améliorations dans notre méthode de collecte des données. Néanmoins, nous avons décidé de rendre ces données accessibles dans leur état brut, offrant ainsi aux chercheurs et aux passionnés la possibilité d’expérimenter. De plus, nous avons mené des analyses supplémentaires sur le contenu capturé.
Demande d’accès aux données
Si vous êtes intéressé par cet ensemble de données de crawl, n’hésitez pas à nous contacter à info@archive.org. Précisez qui vous êtes et quel usage vous prévoyez de faire des données, car nous ne pourrons pas répondre favorablement à toutes les demandes. Toutefois, toutes les attentes seront prises en compte.
Conclusion
En somme, le crawl web débuté en mars 2011 a apporté des données massives et variées, qui offrent un véritable aperçu des dynamiques web en cette période. L’évolution de nos méthodes témoigne de notre engagement à améliorer la qualité des informations collectées. Avez-vous déjà utilisé des données issues de collectes similaires ? Partagez votre expérience en commentaire et n’hésitez pas à partager cet article sur les réseaux sociaux !
Laisser un commentaire