Comment Google indexe et classe les documents
Par Olivier Duffez, mercredi 21 décembre 2005
Dans la première édition de sa newsletter aux bibliothécaires, Google décrit comment il indexe et classe les documents...
Dans un article rédigé par Matt Cutts (on n'entend plus parler que de lui en ce moment !), Google explique les bases de son fonctionnement, en traitant de l'indexation puis du classement des pages (How does Google collect and rank results?
).
Il aborde donc :
- le crawl
- la création de l'index inversé
- l'utilisation de milliers de serveurs dans les data centers
- la recherche des documents ayant chacun des mots de la requête de l'internaute
- le PageRank
- l'existence de nombreux autres critères (la proximité des mots, le nombre d'occurrences des mots, etc.)
- le nombre de liens issus de sites
réputés
(trusted sites) - la création des snippets (descriptif de chaque résultat)
Il rappelle que pour chaque requête, environ 500 machines sont utilisées pour renvoyer la réponse à l'internaute, et tout ça en une demi seconde en moyenne.
Bref, rien de nouveau pour les habitués de WebRankInfo. Google cherche-t-il à créer de bonnes relations avec les bibliothécaires ?

Ajoutez ce blog à vos favoris Technorati !




Commentaires
1. Le mercredi 21 décembre 2005 à 13:12, par Yazerty
Ajouter un commentaire
Les commentaires pour ce billet sont fermés.
A lire aussi dans l'actualité WebRankInfo
Jusqu'à présent il n'était pas vraiment possible d'empêcher les moteurs de recherche d'indexer une ou plusieurs parties d'une page web. On pouvait éventuellement se débrouiller pour générer une partie de la page avec du JavaScript, ce langage étant (pour l'instant) ignoré des moteurs. Yahoo introduit aujourd'hui la possibilité d'indiquer à son robot Slurp des zones de pages à ignorer, grâce à une classe CSS intitulée robots-nocontent.
A lire dans le forum WebRankInfo