Traitement sémantique des lexèmes chez les moteurs de recherche

WRInaute accro
Lexème c'est un gros mot. Ca fait parti des notions qui préfiguraient un bon somme en cours durant mes études :)

Vais me plonger dans cette lecture fort intéressante ceci dit.
 
WRInaute discret
merci pour webrankinfo pour la création de ce forum ... et a véronique qui traite des sujets aussi pointu et si rarement traiter au référencement.
 
WRInaute impliqué
Merci pour l'article. Je note que les articles sur WRI se font plus nombreux et plus pointus, et c'est tant mieux (à défaut du forum ou les mêmes sujets, et les mêmes réponses reviennent périodiquement).
 
WRInaute occasionnel
Ouch il fait mal à la tête cet article ^^

Un poil moins compréhensible que le premier j'ai du le relire une seconde fois pour tout comprendre, mais c'est tout de même très intéressant merci :mrgreen:

sinon

Un “canardeau” (le petit du canard)

Et le caneton c'est le frère du canardeau?
 
Nouveau WRInaute
Ouh la la, et j'ai failli rater ce second article, à lire trop rapidement la newsletter de WRI !! :p
Encore une fois, passionnant. Et puis ça fait du bien de lire des choses nouvelles et qui sortent un peu du "tout-web" et pourtant apportent grandement de l'eau au moulin... Ca m'a aéré le cerveau, j'adore ! :-D

Sylv
 
WRInaute passionné
Merci pour ce second article tout aussi intéressant que le premier.
ca fais plaisir de lire du "pointu" :mrgreen:
 
WRInaute occasionnel
J'ai lu... et me suis dit que je roule en voiture sans pour autant connaitre la nature exacte des réactions chimiques qui se produisent dans le moteur, et sans savoir exactement comment fonctionne la direction assistée quand je tourne le volant.

Quel est l'intérêt de savoir comment Google décortique et analyse les textes qu'il découvre sur la toile pour améliorer mon positionnement dans les résultats ?

Personnellement, je me pose de moins en moins de questions et je rédige mes textes le plus naturellement possible sans trop me préoccuper de la manière dont Google va analyser tout ça.

Je comprends bien que cela puisse passionner quelques spécialistes et amoureux de la langue mais franchement, je ne vois pas l'intérêt d'une vulgarisation de ces sujets, en particulier dans le domaine du référencement.

Ce que je retiens, c'est que Google améliore constamment ses méthodes pour proposer des résultats de plus en plus pertinents à ses utilisateurs.
 
Olivier Duffez (admin)
Membre du personnel
simplement qu'il y a des méthodes "plus naturelles que le naturel" ;-) qui marchent mieux pour Google et bien pour les internautes
 
WRInaute passionné
jardintropical a dit:
Quel est l'intérêt de savoir comment Google décortique et analyse les textes qu'il découvre sur la toile pour améliorer mon positionnement dans les résultats ?

D'autant plus que si tu tapes "canard", Google ne sait pas si cherches de l'info sur un oiseau, sur de la musique, sur un journal ou sur M. Albert Canard.

Sinon les notions développées sont intéressantes, le lien avec le réf se fait plus facilement grâce aux gros dossiers du Hub entre 2004 et 2006 : http://www.webmaster-hub.com/publication/-La-semantique-appliquee-au-.html
 
Nouveau WRInaute
Mon article ne parle pas de la requête "canard"... si Google pouvait comprendre le sens de cette requête pour l'internaute, il serait télépathe ;-)

L'exemple canard avec ses différents sens permet par contre de réfléchir à l'impact de la co-occurrence dans un document.
 
WRInaute accro
Bonjour

Et bien moi au contraire je suis fort demandeur d'informations à ce sujet ! Ayant un projet en cours de grosse photothèque... multi-lingue avec gestion des synonymes, etc.

Je ne suis pas allé jusqu'à l'ontologie ni même au thésaurus, mais à quelque chose d'intermédiaire et répondant à mes besoins propres. Néanmoins, je rate peut-être des choses et ce genre d'article est donc parfait pour me remettre en question !

(suis à la recherche d'ouvrages sur la question)
 
WRInaute passionné
Véronique a dit:
Mon article ne parle pas de la requête "canard"... si Google pouvait comprendre le sens de cette requête pour l'internaute, il serait télépathe ;-)

La télépathie n'est pas la seule explication possible. ;)

- Google utilise des algorithmes de typisation de la requête. Un exemple avec le rank QDF (Query Deserves Freshness : http://www.nytimes.com/2007/06/03/business/yourmoney/03google.html?_r= ... wanted=all )
Certes, ce n'est pas un classement thématique des requêtes, mais une désambiguation sur l'objectif de la recherche par l'internaute.

- Cela dit, il est interessant de noter que Google propose des 'refinements' dans ses moteurs CSE, qui permettent à l'internaute de clarifier sa recherche en les rattachant à une thématique ou une autre : http://googlecustomsearch.blogspot.com/2008/03/labels-in-custom-search.html
A noter que ces étiquettes sont crées humainement par les créateurs de CSE.

- L'autre technique consiste à connaitre le contexte informationnel de l'internaute. On sait que désormais, les pubs Adsense ne sont pas seulement ciblées sur le contenu de la page, mais aussi sur l'historique Google de l'utilisateur.
Si j'ai l'habitude d'aller sur le site du Canard Enchainé et que je suis loggué à mon compte Google quand je fais la recherche 'canard'...

Au final, l'utilisation de la sémantique dans les moteurs grand public ne concerne pas ou peu la compréhension des pages elles même. Pourquoi ? Parce que :
- ça coûte trop cher à l'échelle d'un moteur comme Google;
- parce que la force brute de calcul est plus efficiente;
- Parce que les utilisateurs sont satisfaits des résultats, et qu'ils ont appris à clarifier eux-même leurs requêtes en ajoutant des mots;
- Parce que la connaissance de chaque internaute est une alternative valable... qui a l'immense avantage d'augmenter la capacité de ciblage de la régie publicitaire de Google.

En revanche, la sémantique semble avoir trouvé plus d'applications dans la compréhension des requêtes.
 
Olivier Duffez (admin)
Membre du personnel
donc en gros ça te parait évident que Google fait des traitements sémantiques mais uniquement pour comprendre les requêtes ? je n'ai pas bien compris ton raisonnement (peut-être n'as-tu pas cherché à montrer pourquoi Google ne ferait pas d'analyse sémantique des pages web ?)
sans doute qu'on ne parle pas de la même chose, peut-être faudrait-il définir ce que tu appelles la sémantique

Google aurait la maîtrise d'algos sémantiques robustes (utilisés dans AdSense depuis 5 ou 6 ans) et ne l'utiliserait pas du tout dans son algo d'analyse des pages ?
 
WRInaute passionné
Merci Véronique pour cette article de vulgarisation très bien écrit (aussi bien pour l'internaute que pour Google :wink: ).

Néanmoins, je suis navré d'apporter un avis un peu plus critique que les autres membres du forum sur l'utilité de cet article pour le référencement... On sait depuis quelque temps déjà (quand on est connaisseur du sujet SEO) qu'il ne sert à rien de rechercher un indice de densité idéal en répétant les mots-clés dans une page web et qu'il faut travailler sur le champ lexical du mot-clé. Votre article est une très bonne vulgarisation qui donne une idée de comment Google analyse sémantiquement les textes mais tant qu'on ne sait pas à quelle pondération il applique ni quelle méthode exacte il utilise, ben concrètement ça ne nous sert pas à grand-chose... :roll:

Ne prenez pas mal ma critique, je suis certain qu'une intervenante de votre qualité sait apprécier avec recul les critiques, disons que j'aime assez aller à l'inverse du mouvement général et comme tout le monde vous félicite, il fallait bien que je fasse mon chieur :mrgreen:. Plus sérieusement : c'est intéressant pour la culture générale mais ça n'apporte pas d'aide concrète.

J'attends quand même avec impatience votre prochain article :wink:
 
WRInaute passionné
En fait, tout est dans les communications officielles de Google : http://www.computerworld.com/action/article.do?command=viewArticleBasi ... Id=9130318

Quelques extraits :
The new technology will enable Google's search engine to identify concepts and associated terms related to queries, thereby improving the list of related search terms that are displayed along with search results, the company said in a blog post today.

For example, Google's search engine, upon encountering a query such as "principles of physics," will now be able to understand that "angular momentum," "special relativity," "big bang" and "quantum mechanics" are all related terms
...with a primary goal of helping users to refine their queries...
He added that the company isn't using semantic technology more broadly at this point because full conceptual analysis of documents would slow down the search and query-refinement process.


Si je fais un résumé grossier :

1. Sémantiser les pages web lors de leur indexation (LSI), c'est trop couteux.

2. En revanche, si je cherche "principes de la physique", le moteur saura que "big bang" est un concept proche. Autrement dit, une page contenant et "principes de la physique" et "big bang" pourra être jugée plus pertinente qu'une page qui ne contiens que la première expression.
C'est donc un travail d'extension de la requête, et non un travail sur la compréhension de la page.

Notez en outre que ce travail d'extension des requêtes peut être fait sans appel aux thésaurus ou aux ontologies, mais par un calcul statistique de co-occurences et (et calculs sophistiqués dérivés). Mais je ne maîtrise pas suffisamment la pratique de ces 2 techniques pour savoir laquelle est plus adaptée à un moteur de recherche très grand public comme Google.
 
WRInaute passionné
Véronique a dit:
Mon article ne parle pas de la requête "canard"... si Google pouvait comprendre le sens de cette requête pour l'internaute, il serait télépathe ;-)

L'exemple canard avec ses différents sens permet par contre de réfléchir à l'impact de la co-occurrence dans un document.

Certes, mais le seul impact qui nous intéresse est le classement des pages dans les Serp... donc selon des requêtes. Les pages dans Google ne sont pas classées "en soi", mais classées différement selon ce que demande l'utilisateur. Avec en plus :

1/ Quasiment aucune page ne peut être associée à un seul thème, ou domaine, ou champ lexical, ou ce que tu veux ;
2/ Très peu de mots ont un seul sens et ne peuvent être associés à un seul thème, ou domaine, etc.

Comment faisons-nous pour relier ton article aux résultats de la requête qui l'illustre ?
 
WRInaute passionné
lafleur2004 a dit:
Comment faisons-nous pour relier ton article aux résultats de la requête qui l'illustre ?
La très bonne question...
(ou le reverse engineering appliqué au résultats :mrgreen: )
 
WRInaute discret
lafleur2004 a dit:
1/ Quasiment aucune page ne peut être associée à un seul thème, ou domaine, ou champ lexical, ou ce que tu veux ;
2/ Très peu de mots ont un seul sens et ne peuvent être associés à un seul thème, ou domaine, etc.

ce que tu dis n'est vraie a 100 % , alors que google arrive a détecter le contexte et le sujet du site quasiment dans tous les coups et tu peut le vérifier par la commande related:tonsite..
donc si google sais ce qu'il y a dans ton site il pourra et sa grâce a la sémantique et des mots liée de te ramené des visiteurs cible.. et de classé les sites pertinents en première positions et les sites non pertinents ne seront pas classé ..

exp :
- siteA parle que de foot ( google saura que c'est un site specialisé dans le foot ( comment?? je ne sais pas :lol: ) )
- siteB un site de news parle de foot seulement dans un article.

si on fais une recherche sur google pour le mot clé "foot" normalement si on négliger tous les autres facteurs du référencement. Le siteA sera favorisé dans les classements ;)

d'après ma petite expérience je croix que ma logique et vrai.. :wink:
 
WRInaute passionné
Si tu es en train d'expliquer qu'un site qui parle beaucoup de foot est favorisé dans le classement sur "foot" par rapport à un site qui en parle peu, je suis convaincu d'avance. Mais Google n'a pas besoin d'outil sémantique pour arriver à ça.
 
WRInaute discret
Si tu es en train d'expliquer qu'un site qui parle beaucoup de foot est favorisé dans le classement sur "foot" par rapport à un site qui en parle peu, je suis convaincu d'avance. Mais Google n'a pas besoin d'outil sémantique pour arriver à ça.
Si je reprend le même exemple de tout à leur .
si un site A parlant de de "foot" aussi ( ballon, gardien, but, spectateur, attaquant..etc)
il sera favorisé sur tous les requêtes traitant le sujet de football.

je croix que la sémantique et le meilleure moyen pour comprendre et détecter le sens des pages web. et par suite classifier les pages d'après leurs pertinence.
 
WRInaute passionné
ringout a dit:
je croix que la sémantique et le meilleure moyen pour comprendre et détecter le sens des pages web. et par suite classifier les pages d'après leurs pertinence.

Euh... Je ne crois pas que Google comprenne ou détecte le sens des pages web ! Déjà que souvent, les internautes ont du mal... :lol:
 
Discussions similaires
Haut