Présentation du système d'indexation de Google
Par Olivier Duffez
, Vendredi 5 septembre 2008
Cet article présente le système de crawl (récupération des documents web) et d'indexation (analyse des documents web) par Google.
Le crawl
Google a mis en place un logiciel de type crawler, dénommé GoogleBot. Il s'agit d'un robot d'indexation des pages web (et maintenant d'autres types). Son principe est simple (mais pas sa mise en œuvre !) : quand il lit une page pour l'indexer, il rajoute à sa liste de pages à visiter toutes celles liées à la page en cours de traitement.
Théoriquement, il devrait donc être capable de connaître la plupart des pages du web, c'est-à-dire toutes celles qui ne sont pas orphelines (une page est dite orpheline si aucune autre ne pointe vers elle). Le volume des données à traiter étant considérable, ce robot est un programme réparti sur des centaines de serveurs.
Outre la connaissance du plus grand nombre de pages, Google cherche aussi à les indexer régulièrement, car une bonne partie des pages sont mises à jour de temps en temps. D'ailleurs la fréquence de visite de GoogleBot sur une page web dépend de son PageRank : plus il est grand, plus il l'indexera souvent. D'un passage à l'autre, GoogleBot peut détecter une page devenue inexistante ("erreur 404").
L'indexation
Cette masse colossale d'informations, Google va l'analyser, la décortiquer jusque dans les moindres détails. A chaque mot ou phrase est en effet associé son type, basé sur le langage HTML. C'est ainsi qu'un mot contenu dans le titre sera jugé plus important que dans le corps du texte. Une échelle de valeurs classe les types de mots (titre de la page, titre de paragraphe H1 à H6, gras, italique, etc.). Ce pré-traitement, associé à d'autres critères dont celui du PageRank, permet de fournir les résultats les plus pertinents en premier.
Pour aller au-delà de cette petite introduction, je vous conseille de lire mon article décrivant plus en détails le fonctionnement de l'indexation Google (et pour votre culture personnelle, ces autres articles plus anciens et maintenant dépassés : La vie d'une page sur le web et Google en résumé.
A propos de l'auteur : Olivier Duffez
![]()
Consultant indépendant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC, RueDuCommerce...). Il édite le site WebRankInfo.com qu'il a créé en 2002, devenu la plus grande communauté francophone sur le référencement (+ 200.000 membres et 1,3 million de posts). Il a également créé la société Ranking Metrics, leader des formations emarketing en France (référencement naturel, AdWords, Analytics, réseaux sociaux).
Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.
Postez un commentaire !
Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.
En postant un commentaire, vous acceptez les CGU du site WebRankInfo.
Formation référencement et webmarketing
Venez chez Ranking Metrics vous former au référencement, à Google Analytics et aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (financement possible par OPCA, DIF...).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation agréé).
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo. Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
Catégories des dossiers
- Actualité
- Android
- Autres produits Google
- Brèves
- Conseils référencement
- Débuter en référencement
- Droit et Internet
- e-marketing
- Ecrire pour le web et le référencement
- Gmail
- Google AdSense
- Google AdWords
- Google Analytics
- Google Chrome
- Google Images
- Google Labs
- Google Maps
- Google Mobile
- Google News
- Google Search
- Google Toolbar
- Google Webmaster Tools
- Google+
- Indexation Google
- L'entreprise Google
- Les API de Google
- Livres sur le référencement et les moteurs de recherche
- Outils
- PageRank
- R&D référencement
- Ranking Metrics
- Référencement Bing
- Référencement des images
- Référencement et PHP
- Référencement local
- Référencement Yahoo
- Référencement Yandex
- Réseaux sociaux
- Sitemaps
- Stratégies de liens
- Stratégies de mots-clés
- Techniques de référencement
- Webmastering
- WebRankInfo
- YouTube
Sites de l'annuaire
- Cabinet de recrutement Google et Gmail
- Annuaire web gratuit et référencement Google
- Rodsbot, un Google Earth très insolite
- My Google Maps sur votre site
- Livre sur le référencement Google (référencement naturel)
- Gphone et google Phone, le blog
- Google Earth - Google Maps : lieux remarquables
- Les académies Google AdWords en France


