Annonces Google

Vous êtes ici : Dossiers référencement > Indexation Google

Présentation du système d'indexation de Google

Par , le 05 septembre 2008

Cet article présente le système de crawl (récupération des documents web) et d'indexation (analyse des documents web) par Google.

Le crawl

Google a mis en place un logiciel de type crawler, dénommé GoogleBot. Il s'agit d'un robot d'indexation des pages web (et maintenant d'autres types). Son principe est simple (mais pas sa mise en œuvre !) : quand il lit une page pour l'indexer, il rajoute à sa liste de pages à visiter toutes celles liées à la page en cours de traitement.

Théoriquement, il devrait donc être capable de connaître la plupart des pages du web, c'est-à-dire toutes celles qui ne sont pas orphelines (une page est dite orpheline si aucune autre ne pointe vers elle). Le volume des données à traiter étant considérable, ce robot est un programme réparti sur des centaines de serveurs.

Outre la connaissance du plus grand nombre de pages, Google cherche aussi à les indexer régulièrement, car une bonne partie des pages sont mises à jour de temps en temps. D'ailleurs la fréquence de visite de GoogleBot sur une page web dépend de son PageRank : plus il est grand, plus il l'indexera souvent. D'un passage à l'autre, GoogleBot peut détecter une page devenue inexistante ("erreur 404").

L'indexation

Cette masse colossale d'informations, Google va l'analyser, la décortiquer jusque dans les moindres détails. A chaque mot ou phrase est en effet associé son type, basé sur le langage HTML. C'est ainsi qu'un mot contenu dans le titre sera jugé plus important que dans le corps du texte. Une échelle de valeurs classe les types de mots (titre de la page, titre de paragraphe H1 à H6, gras, italique, etc.). Ce pré-traitement, associé à d'autres critères dont celui du PageRank, permet de fournir les résultats les plus pertinents en premier.

Pour aller au-delà de cette petite introduction, je vous conseille de lire mon article décrivant plus en détails le fonctionnement de l'indexation Google (et pour votre culture personnelle, ces autres articles plus anciens et maintenant dépassés : La vie d'une page sur le web et Google en résumé.

Cet article vous a-t-il plu ?
Cliquez pour voter !

A propos de l'auteur : Olivier Duffez Olivier Duffez sur Google+ Olivier Duffez sur Twitter Olivier Duffez sur Facebook Olivier Duffez sur Pinterest Olivier Duffez sur LinkedIn

Consultant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC,...). Il édite le site WebRankInfo qu'il a créé en 2002, devenu la + grande communauté francophone sur le SEO (+300.000 membres, 1,5 million de posts). Il est aussi cofondateur de Ranking Metrics, leader des formations webmarketing en France (SEO, AdWords, Analytics, réseaux sociaux) et éditrice de la plateforme MyRankingMetrics (crawler et audit SEO en ligne).

Article (Présentation de l'indexation Google - Googlebot, le robot de Google) publié par WebRankInfo dans la rubrique Indexation Google. Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.

Postez un commentaire !

Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.

En postant un commentaire, vous acceptez les CGU du site WebRankInfo.

Annonces Google

Catégories des dossiers

Consultez les dossiers par thématiques :

Annonces Google

Formation référencement et webmarketing

Venez chez Ranking Metrics vous former au référencement, à Google AdWords et Analytics ainsi qu'aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (Dossier possible OPCA...).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation).

Hébergement web

Hébergement web mutualisé et dédié

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit by Nerim, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo.

A partir de 3€ HT/mois.