Voir aussi
- Présentation
- Indexation
- GoogleBot
- La société Google
- Data centers
- Le cache Google
- Black-list ?
- Produits et services

PageRank
- Formule du PageRank
- Constatations
- Augmenter son PR
- Optimiser en interne
- Promeneur aléatoire
- Conclusion
- PageRank 10
- Echelles de PageRank
Google Dance
Google Toolbar
Google AdSense
- AdSense en résumé
- Testez AdSense !
- AdSense tracking
- Des précisions...
- Annonces illustrées
- Parrainage AdSense
- FAQ AdSense
Gmail
Google SiteMaps
Google Desktop
Google News
Outils Google
Indexation dans Google
Google a mis en place un logiciel de type crawler, dénommé GoogleBot. Il s'agit d'un robot d'indexation des pages web (et maintenant d'autres types). Son principe est simple (mais pas sa mise en oeuvre !) : quand il lit une page pour l'indexer, il rajoute à sa liste de pages à visiter toutes celles liées à la page en cours de traitement.
Théoriquement, il devrait donc être capable de connaître la plupart des pages du web, c'est-à-dire toutes celles qui ne sont pas orphelines (une page est dite orpheline si aucune autre ne pointe vers elle). Le volume des données à traiter étant considérable, ce robot est un programme réparti sur des centaines de serveurs.
Outre la connaissance du plus grand nombre de pages, Google cherche aussi à les indexer régulièrement, car une bonne partie des pages sont mises à jour de temps en temps. D'ailleurs la fréquence de visite de GoogleBot sur une page web dépend de son PageRank : plus il est grand, plus il l'indexera souvent. D'un passage à l'autre, GoogleBot peut détecter une page devenue inexistante ("erreur 404").
Cette masse colossale d'informations, Google va l'analyser, la décortiquer jusque dans les moindres détails. A chaque mot ou phrase est en effet associé son type, basé sur le langage HTML. C'est ainsi qu'un mot contenu dans le titre sera jugé plus important que dans le corps du texte. Une échelle de valeurs classe les types de mots (titre de la page, titre de paragraphe H1 à H6, gras, italique, etc.). Ce pré-traitement, associé à d'autres critères dont celui du PageRank, permet de fournir les résultats les plus pertinents en premier.
Pour en savoir plus
Lire l'article "La vie d'une page sur le web" ou bien "Google en résumé".
Publicités
- Hébergement web pro

- Pour un bon référencement, il faut un bon hébergeur.
- Testez Sivit, l'hébergeur choisi par WRI (garantie 30 jours satisfait ou remboursé) à partir de 1,90 EUR HT/mois
- Best seller
