Wide crawl started in March 2011

Écrit par

dans

Démarrage du crawl large

En mars 2011, nous avons lancé un projet de web crawl à grande échelle en utilisant une liste de départ et une configuration de crawler. Ce processus a été réalisé grâce au nouveau logiciel HQ destiné à un crawl distribué, développé par Kenji Nagahashi.

Contenu du jeu de données

Le démarrage du crawl a eu lieu le 09 mars 2011 et a généré des chiffres impressionnants :

Nombre de captures : 2,713,676,341
Nombre d’URLs uniques : 2,273,840,159
Nombre d’hôtes : 29,032,069

La liste des semences pour ce crawl était composée des 1 million de sites web les plus visités selon Alexa, récupérée peu avant le début du crawl. Nous avons utilisé le logiciel Html Heritrix (version 3.1.1-SNAPSHOT) et respecté les directives du fichier robots.txt. Le périmètre de ce crawl était relativement large, avec quelques sites manuellement exclus.

Un crawl expérimentale

Cependant, il s’agissait d’un crawl quelque peu expérimental pour notre équipe, car nous utilisions un logiciel récemment mis au point pour alimenter les crawlers avec des URLs. Nous avons rencontré plusieurs problèmes opérationnels. Par exemple, dans de nombreux cas, nous n’avons pas pu analyser tous les objets intégrés et liés à une page, car leurs URLs étaient ajoutées à des files d’attente qui ont rapidement dépassé la taille prévue pour ce crawl. Par conséquent, certaines ressources n’ont jamais été atteintes.

Nous avons également effectué des crawls répétés de certains sites gouvernementaux argentins, ce qui pourrait fausser les résultats par pays. Depuis cet exemple, nous avons apporté de nombreuses modifications à notre approche des crawls à grande échelle, mais nous avons choisi de rendre ces données accessibles dans leur forme brute pour que d’autres puissent les explorer.

Accès aux données de crawl

Si vous êtes intéressé par cet ensemble de données de crawl, n’hésitez pas à nous contacter à info at archive dot org. Veuillez spécifier qui vous êtes et vos intentions concernant l’utilisation des données. Bien que nous ne puissions pas répondre favorablement à toutes les demandes, chaque requête sera examinée avec soin.

Thomas Li Wang

Né en France dans une famille franco-chinoise, j’ai grandi entre deux cultures et deux visions du monde. Après des études en mandarin et un passage à Pékin, j’ai travaillé dans le conseil, la traduction et l’interprétariat pour renforcer les liens entre l’Europe et la Chine. Aujourd’hui, je partage ici des analyses, anecdotes et clés de lecture pour mieux comprendre la Chine contemporaine, loin des clichés. Merci de votre lecture, et n’hésitez pas à réagir.

Wide crawl started in March 2011

Démarrage du crawl large

Contenu du jeu de données

Un crawl expérimentale

Accès aux données de crawl

Commentaires

Laisser un commentaire Annuler la réponse

Plus de publications

China Huaneng Group : quand l’énergie verte booste l’économie de demain !

Plongée humoristique dans l’AIB : l’infrastructure made in Asia qui bâtit l’avenir

Comprendre les vaccins en Chine : realité et enjeux en 2025

Publicis en Chine : comment l’agence booste son influence en 2025