Les technologies utilisées par Google Search
Amit Singhal vient de vulgariser sur le blog officiel de Google les principales technologies utilisées par le leader de la recherche sur Internet. Pour résumer, il les a classées en 3 grandes catégories représentant les défis auxquels tout moteur de recherche est confronté : comprendre de quoi parlent les pages web, comprendre les requêtes tapées par les internautes, comprendre les intentions des internautes eux-mêmes.
Pour ceux qui veulent lire l'article original complet, c'est ici en anglais : Technologies behind Google ranking. Pour les autres, voici un petit résumé…
Analyse des pages web
Google a beaucoup travaillé sur son système de crawl et d'indexation, afin d'arriver à avoir un index à la fois très grand et récemment mis à jour ( »frais » comme ils disent). Google dit également s'être amélioré dans la compréhension des concepts abordés sur les pages web, même si certains mots-clés n'y figurent pas. On sait que cela peut venir de l'analyse du profil du netlinking des pages (et du site). Cela peut venir également de nombreuses autres analyses, que l'ingénieur de Google ne détaille pas ici bien entendu. Google peut très bien par exemple déterminer le lieu géographique associé à un site (si c'est pertinent) et positionner ses pages en bonne place parmi les résultats sur des requêtes incluant ce lieu, même s'il ne figure pas dans le texte de la page.
Amit Singhal indique aussi que l'algorithme de Google fait la part entre les mots importants et ceux qui le sont moins. La fraîcheur des informations d'une page est également mesurée…
Analyse des requêtes
Quand ils tapent leurs requêtes, les internautes ne font pas toujours bien attention aux mots qu'ils emploient. Parfois, leur formulation n'est pas la meilleure, et Google doit s'en sortir malgré tout pour comprendre ce que l'internaute cherche vraiment. On a tous vu que quand on fait une faute de frappe, Google nous suggère une correction. L'exemple donné dans l'article concerne Kofi Annan : si on cherche [kofee annan], Google nous demande si ce n'est pas plutôt [kofi annan] que nous cherchons…
Un des points clés dans la compréhension des requêtes est l'étude des synonymes. En réalité, Google modifie parfois la requête de l'internaute afin de lui retourner des résultats plus pertinents. L'algorithme de Google exploite aussi énormément les entités nommées et les abréviations en tous genres. Par exemple, il sait bien que dans la requête [Dr Zhivago], Dr signifie Docteur, tandis que dans la requête [Rodeo Dr], Dr signifie Drive.
Parfois le système de Google exploite l'algorithme maison d'identification des concepts. Par exemple un internaute qui tape la requête [new york times square church] ne s'intéresse pas aux articles du journal du New York Times, mais à l'église de Times Square à New York.
Toutes ces analyses de la requêtes sont faites dans toutes les langues gérées par Google, avec les subtilités de chacune…
Analyse des internautes qui font les recherches
Le dernier point-clé réside dans l'analyse des internautes eux-mêmes, en plus de leur requête. L'idée est d'arriver à mieux comprendre ce qu'ils ont en tête quand ils font leurs recherches. Un des points essentiels est la prise en compte du pays dans lequel se trouve l'internaute (et/ou de l'interface de Google qu'il utilise : google.fr ? google.com ? google.be ? etc.). Une même requête doit être traitée de façon différente par Google selon ces cas de figure. Amit Singhal prend un exemple pour les francophones : un Français qui tape [Côte d'Or] cherche a priori des informations sur le département du même nom, tandis qu'un Belge (ou un français gourmand) s'intéresse plutôt à la marque de chocolat du même nom.
Évidemment, Google a également développé tout l'aspect personnalisation, en tenant compte de l'historique des requêtes de l'internaute. Un internaute qui cherche des informations sur [jaguar] aura des résultats sur la marque de voiture de luxe s'il a déjà fait de nombreuses requêtes dans ce domaine, plutôt sur l'animal. La personnalisation n'est vraiment possible que pour les membres qui font leurs recherches sur Google tout en étant connecté avec leur compte Google, avec l'historique des recherches activé.
Même si encore une fois cet article ne nous révèle aucun secret, je trouve l'effort louable de la part de Google de vulgariser ainsi son cœur de métier (ou plutôt son métier historique, car au vu de ses résultats financiers, son cœur de métier est plutôt la publicité en ligne, omniprésente dans la plupart des services de Google).
Envie d'en discuter ? Rejoignez le forum : Les requêtes des internautes analysées par Google
Olivier Duffez, Jeudi 17 juillet 2008
Formation référencement et webmarketing
Vous souhaitez sans doute améliorer votre référencement, avez-vous pensé à suivre une formation spécialisée sur le référencement naturel ? En 2008, plus de 700 entreprises ont assisté à nos différentes sessions, la plupart faisant financer ces journées par la formation professionnelle (OPCA). Orange Labs nous a décerné un taux de satisfaction des participants de 90% (octobre 2008).
Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans la profession, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.
Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, cliquez ici pour consulter le site de Ranking Metrics (organisme de formation agréé).
Lectures recommandées sur ce thème :
- google e tes images
- Historique des recherches dans Google News
- google compte tes visiteurs
- Google search vu par les employés Google
- Des résultats issus de Google blog search dans Google web
- [Google] On-Demand Indexing feature with Google Site Search
- Bouton Google Search Desktop dans la barre Google
- [Info] Google Afrique du Sud et Google Desktop Search
- Google teste la recherche locale (Google Search by Location)
- [Google] Accessible View [Google Experimental Search]
- Difference entre Google.com/searchFR et Google.fr/search
- historique google
- Google:non Google blog search:oui
- google custom search et annonces google
- Google Trends : Personalized Search on Google
Consultez la description détaillée des produits ou services de Google suivants : Google Trends Recherche Personnalisée, Google News Archive Search, Marques de Google, Google TrustRank, Google Accessible Search
- Tester l'indexation récente d'un site dans Google
Cet outil vous permet de connaître une estimation de l'ancienneté d'un site : il fournit la date à laquelle Google l'a indexé la première fois (et la même chose pour archive.org).
8 commentaires sur “Les technologies utilisées par Google Search”
Laisser une réponse
Hébergement web
Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo (+ de 3 millions de visites/mois). Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.
A partir de 1,90 EUR HT/mois.
A la une sur WebRankInfo
Formation au référencement
Découvrez le programme de formation au référencement le plus complet : méthodologie d'optimisation du référencement Google, sites dynamiques, stratégies de liens, blogs, formation juridique Internet, Google Analytics, taux de transformation, ROI, etc.
Ce cycle de formation peut être pris en compte par votre budget formation... profitez-en !
Cette formation est assurée notamment par Olivier Duffez, créateur du site WebRankInfo et consultant indépendant en référencement.
Logiciel de pro
Vous cherchez un bon logiciel pour effectuer le suivi du référencement ? Je vous conseille AgentWebRanking, le logiciel leader sur le marché, développé par une entreprise française et vendu dans le monde entier depuis 1998.
En tant que consultant en référencement, je l'utilise pour mes prestations de conseil en référencement professionnel.
Derniers sites inscrits
- Programme TV: Tous vos programmes télé sur Internet
- Meuble House - Meuble, Déco, Linge de maison
- Ressources et actualités culturelles en France
- Matériel Dentaire et produits dentaires pour les pros du dentaire
- Riad Sabah à Fès près de Bab Boujloud
- Lapino - jeu de simulation d'élevage et de course entièrement graphique
- Afriq'Art - l'art africain: Vente de tous les objets d'art d'Afrique
- AMAM - Académie Menneçoise d'arts martiaux
- Vino del Diablo, table à tapas à Ajaccio, restaurant et musique live
- Business Development Center - Tunisie
- Site traitant de la sécurité informatique
- Ordinateurs portables SSD : actu et infos sur les ordi équipés de disques SSD
- Conseil en organisation et en développement commercial
- Gel hydroalcoolique : gel antiseptique pour la désinfection des mains
- Chambre Euro-Méditerranéenne de l'Immobilier



Bonsoir Olivier,
Une erreur de frappe s’est glissé dans le texte: "Par exemple in internaute qui tape la requête"
Cdlt.
merci pour la traduction. intéressant à lire..
Merci pour cette article très ntéressant, je crois que tout y est. :-)
Je me permets un pseudo trackback, citant ton billet Olivier : s.billard.free.fr/referen…
Je n’aime pas trop l’idée de la personnalisation, encore une fois on enregistre un historique avec la bonne idée de nous faire du bien …
L’analyse des requetes se limite seulement alors aux connectés a leurs compte google, mais pas au logs complet ! dommage !!!
C’est très interessant, bon article qui permet de s’enrichir en info.
Article fort interressant !
Signification et pertinence, encore beaucoup de travail en perspective pour Mr Google.