L'indexation par mots uniques ou par bouts de phrases
Quand un moteur de recherche indexe un corpus de documents, la façon la plus simpliste de créer son index est d'analyser les documents mot par mot. En gros, cela permet simplement de savoir si un mot en particulier est présent dans un document, et également de lister tous les documents contenant ce mot. Si c'est une méthode envisageable pour les requêtes de 1 mot, elle montre très rapidement ses limites pour les requêtes de plusieurs mots.
Pour les requêtes de plusieurs mots, il faut donc appliquer d'autres méthodes. Là encore la plus simple est de décomposer la requête mot par mot, de récupérer une liste de résultats pour chaque mot, et enfin de réorganiser tous ces résultats en fonction de critères statistiques. Par exemple, les documents qui contiennent tous les mots ont plus de chances que les autres d'être bien positionnés, même s'ils ne contiennent pas les mots dans l'ordre de la requête (c'est-à-dire qu'ils ne contiennent pas la "phrase" de la requête).
Vous imaginez bien que cette méthode de correspondance booléenne des mots de la requête montre elle aussi bien vite ses limites. Il faut alors s'intéresser aux syntagmes présents dans les documents, ou même aux concepts. Techniquement, les moteurs de recherche ne peuvent pas appliquer aux syntagmes la même méthode d'indexation que celle basée sur les mots uniques, car la combinatoire est bien trop importante. En effet, un tel procédé devrait étudier toutes les possibilités d'expressions constituées de 2, 3, 4, 5 mots ou plus (les fameux n-grammes).
Pour pallier ce problème, les chercheurs de Google ont développé des algorithmes dits de "phrasification", qui ont pour objectif de repérer dans les documents (et dans les requêtes !) les syntagmes intéressants à indexer (comprenez par là des expressions constituées de plusieurs mots, un groupe). En résumé, leur système crée des index de documents non pas basés sur la présence d'un mot en particulier, mais d'un "syntagme". Ces index de syntagmes peuvent être regroupés en "groupes" et en "partitions".
Considérons la requête : "vilain petit canard". Google dans un premier temps peut la traiter mot par mot ("vilain" et "petit" et "canard") et chercher tous les documents dans lesquels ils apparaissent. Cela donnera-t-il un résultat pertinent ? Il y a peu de chances. Par exemple, est-ce qu'un document contenant cette phrase serait pertinent ? "Le Canard Enchaîné a publié un petit article dénonçant le vilain procédé de..."
Le système de Google peut aussi regrouper les mots dans différentes combinaisons (groupes ou partitions) pour tenter de modéliser l'expression : "vilain petit" et "canard" ou "vilain" et "petit canard", ou encore "vilain petit canard". On comprend bien qu'en passant par un modèle phraséologique (ou dit de phrasification) on met de côté les documents dans lesquels on trouve ces trois mots mais sans qu'ils aient une relation étroite. On aboutit ainsi aux résultats les plus pertinents : le vilain petit canard, le conte d'Andersen.
Dans cette logique de modélisation des groupes mots, le système détermine aussi, bien entendu, des syntagmes connexes à partir d'analyses de co-occurrence de syntagmes (tout comme on peut le faire simplement pour de la co-occurrence de mots).
Ainsi, si nous reprenons l'exemple déjà cité, "vilain petit canard" et "conte d'Andersen" sont deux expressions co-occurrentes, il est donc logique de proposer en résultat un document qui possède ces deux "syntagmes".
Attention, ce n'est pas pour cela qu'il faut en conclure que Google exploite des techniques de LSI (Latent Semantic Indexing), qui ne sont pas adaptées à un index de la taille de celui de Google (des centaines de milliards de pages).
Libellé du brevet
Le titre du brevet est le suivant : "Index server architecture using tiered and sharded phrase posting lists".
Il a été inventé par Pei Cao, Nadav Eiron, Soham Mazumdar, Anna Patterson, Russell Power et Yonatan Zunger. Déposé le 30 mars 2007, il a été attribué à Google le 6 avril 2010 sous le numéro US Patent 7,693,813.
Son descriptif complet est disponible sur le site USPTO. Il est expliqué en anglais sur ce blog.
Utilisation de l'analyse des syntagmes dans l'algorithme Google
A la lecture de ce brevet et des autres que Google a déjà obtenus sur le sujet, ainsi que des études menées dans le centre de recherche chez Ranking Metrics pour les techniques de référencement éditorial, il ne fait aucun doute pour moi que Google utilise ces techniques depuis déjà longtemps (au moins 2 ans). Plus Google affinera ses analyses de ce genre, plus les pages avec un contenu bien rédigé auront des chances d'être bien classées, au détriment de ceux qui produisent des pages avec un contenu trop pauvre (voire constitué de suites de mots). Bien entendu il vaut mieux avoir en tête les expressions-clés que tapent le plus les internautes cibles !
D'un point de vue linguistique, il apparaît donc évident aujourd'hui que Google parvient à déterminer des "profils phraséologiques" par traitement statistique. La qualité de ce traitement ainsi que la force de son index lui permettent d'aboutir à une information de type sémantique ou rhétorique (je jargonne un peu mais c'est pour éviter les confusions avec les traitements sémantiques) sans que le traitement algorithmique soit lui-même sémantique !
Mise à jour de l'article : au vu des recherches effectuées pour comprendre le changement d'algorithme Google "MayDay", il semble que Google ait déjà appliqué des analyses telles que celle décrite ici. Il ne suffit plus d'avoir quelques mots éparpillés sur une page pour qu'elle ressorte sur toutes les requêtes utilisant ces mots. Les pages ayant les syntagmes dans le corps de la page sortent beaucoup mieux pour toutes ces requêtes "Longue Traine".
Si vous avez apprécié cet article, vous adorerez ma formation chez Ranking Metrics ;-)
On discute de phrasification/phraséologie et Google dans le forum WebRankInfo.
Si vous avez des questions, posez-les dans le forum WebRankInfo.
Si vous préférez du consulting, j'en propose sur mon site WebRankExpert.
vous dites "Google vient d'obtenir un (nouveau) brevet" puis "il ne fait aucun doute pour moi que Google utilise ces techniques depuis déjà longtemps (au moins 2 ans)"
a lire la page consacrée à ce brevet sur l'USPTO (l'office américain qui délivre les brevets) on constate qu'il a été déposé en 2007 : donc j'imagine que google utilise ce brevet depuis au moins 2007 ! ce serait bizarre de déposer un brevet et d'attendre qu'il soit délivré pour s'en servir, non? je ne suis pas spécialiste, corrigez moi si je dis une bêtise. Excellent article en tout cas.
La "phrasification" décrite porte en effet sur des groupes de mots ou syntagmes (même si cette dernière expression renvoie à une réalité linguistique plus complexe que le traitement opéré ici).
intéressant, mais à partir de "le système de Google peut aussi regrouper les mots..." ça devient un peu difficile à suivre. certaines explication sont vagues, par exemple "les documents dans lesquels on trouve ces trois mots mais sans qu'ils aient une relation étroite" : qu'est-ce qu'une relation étroite ?
il semble aussi que le néologisme "phrasification" et le terme "phrase" soient repris directement de l'anglais où "phrase" signifie "groupe de mots" "expression" "syntagme", ce qui n'aide pas à la compréhension de l'exposé.
google indexe-t-il potentiellement tout groupe de mot ou bien seulement ceux dont la fréquence dans les textes les désigne comme des expressions potentiellement significatives ? tient-il compte uniquement de mots contigus ou bien aussi de mots proches dans la phrase (voir les opérateurs de proximité des système documentaires et anciennement d'altavista) ? ...
Le pourcentage des internautes utilisant des guillemets doit effectivement être ridicule.
Ce qu'il faut espérer avec ce concept de phrasification/phraséologie c'est qu'il soit plus important dans l'algorithme que le critère de notoriété du site, et donc que les sites utilisant l'expression "vilain petit canard" seront placés avant le site du "Canard enchaîné qui ...etc."
Intéressant, mais il suffit déjà de taper 'vilain petit canard' avec les apostrophes pour que l'ensemble de mots soit considéré dans son intégralité.
Oui (il ne s'agit pas d'apostrophes mais de guillemets).
Cela dit je pense qu'un très faible pourcentage des utilisateurs de Google utilisent les guillemets dans leurs requêtes...