Crawl Google
Dans les dossiers :
Dans : Indexation Google - Par Olivier Duffez, le Samedi 6 septembre 2008
Pour indexer des millions de pages tous les jours, Google utilise une « armée » de robots d'indexation, appelés GoogleBot (lire l'étude sur GoogleBot pour en savoir plus). A chaque fois qu'un de ces robots visite une page, il la récupère et la stocke sur un des serveurs de Google. Cette version du document est appelée la version cache. On comprend vite qu'avec des milliards de documents Google ait besoin de plus de 10 000 serveurs (et beaucoup de disques durs…).
Dans : Indexation Google - Par Olivier Duffez, le Vendredi 5 septembre 2008
Cet article présente le système de crawl (récupération des documents web) et d'indexation (analyse des documents web) par Google.
Dans : Actualité - Par Olivier Duffez, le Mercredi 20 août 2008
Depuis l'été 2007, Google a considérablement amélioré son système de crawl : non seulement le moteur semble arriver à indexer les très nombreuses pages créées chaque jour sur le web, mais il n'est plus rare de voir des pages indexées en quelques minutes à peine ! Voici quelques explications issues d'un brevet de Google qui décrit les différents types de crawlers et leurs rôles respectifs.
Dans : Actualité - Par Olivier Duffez, le Jeudi 17 juillet 2008
Amit Singhal vient de vulgariser sur le blog officiel de Google les principales technologies utilisées par le leader de la recherche sur Internet. Pour résumer, il les a classées en 3 grandes catégories représentant les défis auxquels tout moteur de recherche est confronté : comprendre de quoi parlent les pages web, comprendre les requêtes tapées par les internautes, comprendre les intentions des internautes eux-mêmes.
Dans : Actualité - Par Olivier Duffez, le Lundi 14 avril 2008
Alors que jusqu'à présent les pages accessibles uniquement via un formulaire font partie de ce qu'on appelle le web invisible (des moteurs de recherche), Google a commencé à expérimenter le crawl des formulaires. C'est à la fois une bonne et une mauvaise nouvelle… explications.
Dans : Sitemaps - Par Olivier Duffez, le Vendredi 3 juin 2005
Depuis Juin 2005, Google met à disposition des webmasters un outil appelé SiteMaps. Il s'agit d'un moyen pour le webmaster de décrire la liste des pages de son site qui doivent être indexées par Google. L'idée est de faciliter la tâche aux robots d'indexation de Google afin qu'ils indexent plus rapidement et efficacement les pages de votre site. Web Rank Info vous fournit un guide pratique complet (en français bien entendu) pour vous aider à utiliser Google SiteMaps sur votre site.
Lectures recommandées sur ce thème :