Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Archive.org n’indexe plus rien depuis le 22 août 2008 ?

Comme me l’a fait remarquer un membre de WebRankInfo, le site archive.org semble avoir cessé d’indexer des contenus depuis la fin du mois d’août 2008. A moins que ce soit seulement un problème temporaire de mise à disposition des archives ? Si quelqu’un a des informations sur le sujet, qu’il ou elle n’hésite pas en les fournir dans les commentaires.

Archive.org Wayback Machine

Archive.org Wayback Machine, la mémoire du web

Le site archive.org s’est donné comme mission d’indexer de nombreuses copies d’un nombre incalculable de pages de sites web du monde entier. Il permet en quelque sorte de remonter dans le temps pour consulter l’historique du web.

Matt Cutts vient justement d’indiquer au cours de la conférence PubCon 2009 que si un site jugé potentiellement spammeur interdit archive.org de l’indexer, alors l’équipe anti-spam de Google pourrait considérer cela comme un signal d’alerte rouge…

Si aucune archive n’est enregistrée depuis fin août 2008 (cela reste à confirmer je pense), à quoi bon s’intéresser à ceux qui bloquent ce service ?

Peut-être n’est-ce qu’un problème momentané et que le service sera de nouveau disponible à l’avenir ?

Cet article vous a-t-il plu ?

Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

21 commentaires

Axenet

Belle coincidence en effet, que cette constatation après les déclarations de MC :-)

Répondre
Ya-graphic | Référenceur

ça dure plus d’un an quand même….

Répondre
Acamar

Ça serait bien dommage !

Répondre
Patrice Decoeur - Cibléus

Je ne suis pas du tout certain que archive.org ne soit plus actif. Aucun de nos clients n’y a de contenu visible après le 22/08. En revanche, certain des sites qui n’y étaient pas encore visible en octobre le sont maintenant.

A suivre !

Répondre
Olivier Duffez

Des exemples ?

Répondre
Carole

« Please note that there is a 6 – 14 month lag time between the date a site is crawled and the date it appears in the Wayback Machine.  »

c’est dans la FAQ

Répondre
Binioo annonces immobilier

A la vue du volume de données qu’ils ont a traiter, il me semble tout à fait normal qu’il existe un (gros) laps de temps entre le moment où la page est récupérée, et le moment où elle est indexée & publiée.

Par ailleurs, le volume de pages sur le web augmentant de manière exponentielle, ça ne doit pas être une tache simple pour eux techniquement…

Répondre
Olivier Duffez

Je comprends bien qu’il puisse y avoir ce délai, mais a-t-il toujours existé et d’aussi grande durée ?

Répondre
honolulu

@olivier
oui, ce délai semble exister depuis un moment (en tout cas en 2005, je suis pas allé loin), il suffisait de consulter les archives… de archive.org..
« Sites are usually crawled within 24 hours and no more then 48. Right now there is a 6-12 month lag between the date a site is crawled and the date it appears in the Wayback Machine.  »
cf

Répondre
rolriam

Oui il y a toujours eu ce délai d’un an environ.

Répondre
Mathieu

Je connaissais pas ce site, vraiment Excellent. En espérant comme vous que l’archivage va recommencer prochainnement…

Merci pour cette découverte…

Répondre
TOMHTML

Je me suis fait un script qui vérifie le nouveau contenu d’archive.org pour certain sites et je te confirme que, quand je reçois des alertes, c toujours pour des mises en cache qui datent d’il y a 1 an. Ma dernière alerte m’indique juillet 2008 par exemple. En revanche pour Zorgloob là plus de nouvelles du robots depuis un bail (il est même pas bloqué dans le robots.txt !) et pas de date postérieure à 2007 :-/ Encore un mystère d’archive.org à éclaircir…

Répondre
Olivier Duffez

OK merci à tous pour vos commentaires !

Répondre
Ham's

Peut être qu’ils sont en train de commander de nouveaux serveurs pour faire face à la quantité de plus en plus importante de pages web publiés sur le net… :d

Répondre
MrBark

Bon… et après ca google ose prétendre qu’interdire archive.org peut nuire à notre santé ? …

Comment peuvent-ils le savoir ? en regardant plus d’1 an plus tard ?
Car bon, j’ai personnellement interdit archive.org de mes sites, mais je ne me suis pas amusé à utiliser robots.txt évidemment.

Répondre
Max - Creation site

Bonjour

Il y a toujours eu un délai chez archive.org. Par contre un délai de plus de un an, je ne pense pas.

Nos derniers archivages remontent au 29 juillet pour nous

Répondre
Profecto

Bonjour,

Je confirme qu’il persiste toujours un délai chez Archive.org.

Wait & see ;)

Répondre
Robert

archives.org est bien stoppé n’en déplaise à certains. Le délai n’a jamais été supérieur à 9 mois hormis certains cas de sites n’ayant plus été mit à jour depuis longtemps ou ayant connu des période de parking, etc… là ça fait quand même environs 20 mois (soit presque 2 ans).

Répondre
Topfournitures

Bonjour,

Oui effectivement archives.org est stoppé.

Répondre
Agenaise

Qui peut-on croire ? Quelqu’un aurait-il un communiqué officiel ou une info de la source ?
Patricia

Répondre
Francis

Visiblement, Archive.org n’a publié aucune des pages archivées après août 2008.

Ça fait donc près de 8 mois qu’aucun site ou page n’a été ajouté, et les plus récentes datant de 22 mois.

Dommage tout de même, c’était une excellente initiative.

Répondre