Latent Semantic Indexing (LSI) dans l'algo de Google

WebRankInfo · 19 Février 2005

Google utilise-t-il les techniques de Latent Semantic Indexing? Lisez la dernière newsletter d'Axandra (en anglais) pour mieux comprendre comment Google pourrait bien accorder plus de poids aux notions de Latent Semantic Indexing (LSI) depuis la dernière mise à jour de son algorithme :

- Qu'est-ce que "latent semantic indexing?" ?
- Pourquoi est-ce important pour le référencement ?
- Où peut-on trouver plus d'information au sujet de LSI ?

Voici un extrait (traduit) de cette lettre :

Latent semantic indexing aide les moteurs de recherche à comprendre de quoi traite une page web. En gros, il faut comprendre qu'il n'est pas nécessaire de se focaliser sur un seul mot-clé quand on optimise des pages web et qu'on cherche à développer les backlinks.

Les pages de votre site sont certainement similaires (en terme des sujets abordés) et sont centrées sur un sujet donné, même si elles utilisent des mots différents. Voilà ce qu'il faut faire : utiliser des mots différents pour décrire un même sujet, utiliser des variations du mot ou des synonymes. Ceci aidera sans doute les moteurs de recherche à déterminer le sujet de votre site.

Pour ma part, je me demande si c'est vraiment utilisé par Google pour les pages en français. L'opérateur ~ par exemple ne fonctionne pas pour le français.

Réservée aux initiés vu le bon niveau de mathématiques requis pour la comprendre, la méthode LSI a souvent été entourée de mystère et encore plus souvent mal comprise par ceux qui s'intéressent au référencement.

LSI n'est pas lié à l'opérateur tilde (~) qui permet de faire des recherches sur des termes sémantiquement proches. Cet opérateur spécial est basé sur une ontologie.
Il n'existe pas de preuve que Google utilise LSI
LSI peut être utile pour optimiser son référencement, à condition de bien l'utiliser...

Qu'en pensez-vous ?

rituel · 19 Février 2005

Je doute que cela soit utilisé à la vue des résultats peu probants de la commande related qui serait la première à utiliser cette technologie ... Mais si l'on y vient cela ne fera qu'améliorer la pertinence de Google que ce soit pour les recherches ou pour les Adsense.

Cendrillon · 19 Février 2005

je suis convaincue que cette technologie est déjà utilisée depuis longtemps par Google (sous cette forme ou sous une autre) ... pour moi cela rejoint la notion de thématique ...
nous l'avons expérimentée depuis longtemps sur nos sites d'e-commerce : par exemple sur une page qui parle d'imprimante, nous aurons tendance à générer des liens vers d'autres modèles d'imprimantes, et si cette page parle plus particulièrement d'imprimante HP, alors nous générons des liens vers d'autres modèles d'imprimantes HP (c'est ce que nous appellons "génération de liens thématique") ... et ainsi de suite pour chaque gamme de produits ... et cela donne de très bons résultats ...
je suis convaincue que cela augmente la pertinence des pages appellantes et appellées sur une thématique donnée ...

WebRankInfo · 19 Février 2005

moi aussi je pense que c'est utilisé, mais je fais remarquer qu'il n'est pas évident que ce soit aussi avancé en français qu'en anglais.

le related: est basé sur les liens semble-t-il, et non pas sur les aspects sémantiques

alors que l'opérateur ~ semble être bcp plus proche de ce genre de technos.

comparez en anglais ~car (qui met en gras des termes sémantiquement proches des voitures) et en français ~voiture qui ne met en gras que le mot voiture (ou voitures)

Cendrillon, les résultats de ta technique sont peut-être liés aux liens que tu ajoutes entre tes pages

Théophraste · 19 Février 2005

Cendrillon a dit:
je suis convaincue que cette technologie est déjà utilisée depuis longtemps par Google (sous cette forme ou sous une autre) ... pour moi cela rejoint la notion de thématique ...
nous l'avons expérimentée depuis longtemps sur nos sites d'e-commerce : par exemple sur une page qui parle d'imprimante, nous aurons tendance à générer des liens vers d'autres modèles d'imprimantes, et si cette page parle plus particulièrement d'imprimante HP, alors nous générons des liens vers d'autres modèles d'imprimantes HP (c'est ce que nous appellons "génération de liens thématique") ... et ainsi de suite pour chaque gamme de produits ... et cela donne de très bons résultats ...
je suis convaincue que cela augmente la pertinence des pages appellantes et appellées sur une thématique donnée ...

Message bien reçu, merci Cendrillon !

rituel · 19 Février 2005

Finalement d'accord avec toi Olivier, mais comment se fait-ce qu'ils ne l'utilisent pas pour related: qui veut bien dire "en rapport" ... Car là actuellement ne sert à rien du tout ...

u8086 · 19 Février 2005

Voilà ce qu'il faut faire : utiliser des mots différents pour décrire un même sujet, utiliser des variations du mot ou des synonymes. Ceci aidera sans doute les moteurs de recherche à déterminer le sujet de votre site.

Si je comprends bien, cela voudrait dire que GG appliquerait une compréhension sémantique :
- au contenu de la page
- aux liens vers la page

Il en résulterai pour la page :
- que optimiser une page sur un mot-clé n'est plus nécessaire
- que trop spécialiser une page expose a un risque confusion dans les termes et i.e. dans la définition du thème de la page

Il en résulterai pour les liens :
- une évaluation thématique des pages faisant des liens entre elle
- donc une création de "galaxies" de sites abordant les même thèmes
- on peut enfin supposer qu'un lien entre 2 pages de la même galaxie a plus de pertinence (de sens) qu'un lien entre sites aux thèmes différents

Ca vous parle ?

u8086 · 19 Février 2005

D'ailleurs, l'effet Sandbox pourrait s'expliquer par un filtre sémantique :

Les sites (jeunes ou pas ?) vers lesquels affluent des liens dénués de pertinence thématique seraient filtrés ??

J'avoue que ca correspond assez au profil de mes 2 sites sandboxés...

dièse · 21 Février 2005

Pour le mot voiture, sort aussi le mot véhicule

. Ce qui est marrant ce que pour les mots ayant la même orthographe en français et en anglais, les synonimes anglais sortent sur le serveur FR. Il n'y a qu'un seul lexique :? .

dièse · 21 Février 2005

MagicYoyo a dit:
D'ailleurs, l'effet Sandbox pourrait s'expliquer par un filtre sémantique :

Les sites (jeunes ou pas ?) vers lesquels affluent des liens dénués de pertinence thématique seraient filtrés ??

J'avoue que ca correspond assez au profil de mes 2 sites sandboxés...

Je pense que ça n'a pas trop de rapport. Par contre dans la mesure où Google établit facilement la thématique d'un site, la sévérité pour sur-optimisation sur un seul mot-clé doit être bien plus grande.

WebRankInfo · 21 Février 2005

dièse a dit:
Pour le mot voiture, sort aussi le mot véhicule . Ce qui est marrant ce que pour les mots ayant la même orthographe en français et en anglais, les synonimes anglais sortent sur le serveur FR. Il n'y a qu'un seul lexique :? .

tu as raison dièse, je n'avais pas bien regardé, je m'étais penché surtout sur les titres qui comportent surtout le mot voiture dans mon exemple.
Je retire donc ce que j'ai dit, mais il faudrait creuser un peu plus cette histoire qui me semble très importante dans l'algo de Google aujourd'hui...

u8086 · 21 Février 2005

Est-ce qu'il y a déjà eu un test pour vérifier qu'un lien entre 2 pages sémantiquement proches a plus de "poids" qu'un lien entre pages au sens éloignés ?

si non, qu'elle forme pourrait prendre ce test ?

Cendrillon · 21 Février 2005

WebRankInfo a dit:
Cendrillon, les résultats de ta technique sont peut-être liés aux liens que tu ajoutes entre tes pages

je ne crois pas que cela suffirait, tout le monde fait des liens entre ses pages ...
je pense que le fait qu'un lien soit fait entre deux pages d'une même thèmatique avec un texte de lien lui même dans la même thèmatique renforce les pages appelante et appelée dans la thèmatique concernée, et le lien devrait avoir plus de poids plus de poids ... :wink:

u8086 · 21 Février 2005

Comment on pourrait vérifier ça ?

pene-r · 23 Février 2005

Ola,
ne pourrait on pas vérifier ça en faisant un triple test, dans les forum test,

Je n'y connais pas grand chose mais si on fait:
une page texte, sans lien,
une autre même texte avec liens thématique,
une dernière même texte autant de liens, mais des liens pas thématique.

Je l'aurai bien fait, mais quand j'ai lu les recomandations du forum test, j'ai eu peur de faire une connerie ...
alors si quelqu'un se le sent et que ça peut faire avancer le schmilblick.

bon ben finalement, je l'ai lancé ce test, ici

cariboo · 28 Février 2005

Il est pratiquement impossible à mon avis de savoir si Google utilise un algo de type LSI ou n'importe quel autre algo permettant d'avoir un critère basé sur la linguistique statistique et les mesures de similarité.

Mais il est hautement probable que Google utilise effectivement depuis quelque temps un algorithme sophistiqué, plus sophistiqué que les mesures à base de tf*idf.

Quelques tests avec la commande "tilde" démontrent de toute façon que Google a à sa disposition un thesaurus, voire une ontologie complète.

Ce qui me laisse perplexe (et apparemment je ne suis pas le seul) c'est que rien ne permet de penser que les changements de classement apparus récemment aient quelque chose à voir avec cela...

Quant à LSI, c'est un vieux serpent de mer concernant google, qui ressort aussi souvent que l'algo Hilltop...

Au fait, LSI ne permet pas tout seul de déterminer la thématique d'une page...

Mac Fruitos · 26 Mars 2005

Existe t-il un site référence en matière de champ sémantique pour trouver des synonymes proches à un mot donnée ? Sinon la solution reste de regarder les sites bien placés sur une requête et de regarder quels mots du titre ou de la description se rapprochent du mot-clef.

Voici un exemple de recherche sémantique sur Google qui met en évidence que même sur les recherches francophones le ~ peut s'appliquer : ~renault
(mais je soupconne fort que ce soit du au fait que la recherche a un sens en anglais et que les mots associés : CLIO et NISSAN sont valables pour les anglo-saxons aussi)

ocsima · 26 Mars 2005

Si quelqu'un connaît un équivalent français à WordNet
Merci

rituel · 26 Mars 2005

http://elsap1.unicaen.fr/cgi-bin/cherches.cgi

yannouk · 26 Mars 2005

rituel a dit:
http://elsap1.unicaen.fr/cgi-bin/cherches.cgi

J'utilise souvent, tres pertinent!

ocsima · 26 Mars 2005

rituel a dit:
http://elsap1.unicaen.fr/cgi-bin/cherches.cgi

Oui merci de me le rappeler et des progrès ont été faits
Mais avez-vous pu downloader quelque chose ?

rituel · 26 Mars 2005

Non, par contre si tu essayes de faire ce à quoi je pense, à savoir de la suggestion de mots-clefs dynamiques le tout enrobé d'URL-Rewriting à la Kelkoo, tu trouveras peut être de quoi faire ici.

ocsima · 26 Mars 2005

rituel a dit:
Non, par contre si tu essayes de faire ce à quoi je pense, à savoir de la suggestion de mots-clefs dynamiques le tout enrobé d'URL-Rewriting à la Kelkoo, tu trouveras peut être de quoi faire ici.

Non pas tout à fait. Je réfléchis à la possibilité d'une extension sémantique de requêtes suivie d'une classification des pages retournées.

caro · 29 Mars 2005

salut,

je suis en phase de conclusion concernant des test effectués sur la sémantique grâce à un thésaurus.

pour l'instant (je dis bien pour l'instant) tous les tests analysés montrent que google.FR ne réagit pas du tout à l'insertion de clés synonymes, racines et ou similaires

pour effectuer ces tests j'ai crée un thésaurus de quelques termes et fais des pages de liaisons, contenus, densités, ..., égales.
aucune page développée de manière sémantique ne permet à google de lui conférer un sens supplémentaire et de lui faire prendre le dessus par rapport à une page "normale".

conclusion actuelle :
google n'utilise pas de critères sémantiques dans son algo actuel.

ps: je suis entièrement d'accord avec cariboo, les changements actuels n'ont aucun rapport avec des changements d'algo au niveau de la sémantique.

WebRankInfo · 29 Mars 2005

Merci caro pour ton retour d'expérience très intéressant ;-)

u8086 · 30 Mars 2005

Bravo et merci de partager ces vérifications empiriques qui demandent beaucoup de travail.

Kanta · 25 Avril 2005

MagicYoyo a dit:
D'ailleurs, l'effet Sandbox pourrait s'expliquer par un filtre sémantique :

Les sites (jeunes ou pas ?) vers lesquels affluent des liens dénués de pertinence thématique seraient filtrés ??

J'avoue que ca correspond assez au profil de mes 2 sites sandboxés...

Je ne pense pas car on est normalement pas responsable des bls vers notre site. Si ton site est bien construit et utile il obtiendra naturellement des bls de personnes qui le jugent intéressant, sans pour autant que le site sur lequel ils placent ce bl soit du même thème que le tien.

u8086 · 25 Avril 2005

Ouep, je me range à ton avis (le message que tu cites date un peu).

Il y a bien une difficulté à positionner un site jeune.
Et il y a bien des pénalités pour les campagnes de création de backilinks artificiels... ce qui renforce la difficulté à référencer un site jeune.

pocketmofo · 30 Septembre 2006

Oui google fait de l'analyse semantique mais à un niveau tres superficiel.

J ai realise des test sur des sites multilangues et une conclusion parait claire: les particules ont une importance majeure.
Par exemple des particules comme : Vom, Von , Der, Aus qui sont allemandes feront que votre page sera reference dans la langue allemande quelquesoit le langage declaré dans la page.

J'imagine que leur algorithmes travaille sur la proportion de ses particules par rapport au nombre total de mots dans la page. Enfin ca n'est qu'une hypothèse.

Google n'ira pas jusqu'a vérifier le sens d'une phrase, ni la disposition des mots dans celle ci.

buzzistic · 10 Octobre 2006

Il existe aussi l'atlas sémantique développé par le CNRS ici : http://dico.isc.cnrs.fr

Je l'utilise très régulièrement et il donne bien l'idée de ce que l'on peut attendre des notions de "sens" et "concept".

colagen · 6 Février 2007

Je relance ce topic qui me parait important. Savoir si la lci est utilisé ou non dans google permettrait de créer son contenu en adéquation.
Je débute en référencement et je n'ai donc aucun retour d'experience à donner.
J'avais tendance à penser (comme beaucoup apparement) que la lci est à prendre en compte dans notre façon de rédiger nos pages. Mais ca reste seulement intuitif.

Certains y adhèrent complètement en tout cas.

Si des gens passent ici avec un avis qui se base sur autre chose que l'intuition je suis preneur :wink:

cariboo · 10 Février 2007

C'est LSI, ou LSA, et non lci . :wink:

Ceux qui y "adhèrent complètement" comme tu dis agitent surtout leur maîtrise de LSI pour attirer des clients en expliquant comment ils vont pouvoir faire des miracles avec cette méthode scientifique.

Maintenant, quand on lit leur prose, on se marre souvent car elle révèle qu'ils ne comprennent pas plus LSI que... leurs clients.

J'ai écrit un article sur le blog d'un référenceur bien connu pour éviter que, comme dans la seosphere anglophone, les référenceurs francophones prennent ces arguments attrape-gogos pour argent comptant. WRI s'en était fait l'écho à l'époque :

https://www.webrankinfo.com/dossiers/r-et-d/latent-semantic-indexing

J'avais tendance à penser (comme beaucoup apparement) que la lci est à prendre en compte dans notre façon de rédiger nos pages. Mais ca reste seulement intuitif.

En fait, il est franchement difficile (voire impossible) de rédiger ses pages avec LSI en tête... Ce que révèle LSI, ce sont des relations cachées entre des éléments qui a première vue ne sont pas corrélés. Mais cet ordre latent n'est que la résultante directe de la structure de la pensée humaine telle qu'elle est couchée noir sur blanc dans un texte en langage naturel.
LSI est avant tout une méthode d'analyse statistique des termes contenu dans des textes, et ce n'est pas une méthode d'optimisation. On peut l'utiliser au coeur d'un moteur de recherche, certains ont expérimenté la méthode, avec plus ou moins de bonheur, car le paramétrage est difficile et surtout diffère selon les corpus analysés et les objectifs poursuivis.

Je comprend que l'on puisse faire le raisonnement suivant : "si un nouvel algo est utilisé, je dois adapter mon référencement à cette nouvelle méthode". Donc si Google utilise LSI, je dois optimiser mes pages en pensant à LSI.

En fait, ce qu'il faut se dire, c'est que tous les moteurs utilisent intensivement des méthodes de linguistique statistique dans leurs algos. Lesquelles, quelles variantes ? On ne sait pas exactement, c'est leur secret le mieux gardé. Mais quelle que soit la méthode utilisée, comme on ne la connait pas, ce qui marche le mieux, c'est d'écrire des textes en langage naturel, et par ailleurs de travailler sur les autres critères "in page" dont l'effet sur le référencement est, par contre, facilement identifiable voire mesurable.

Les tentatives pour "doper" les textes avec des méthodes statistiques sont souvent hasardeuses, surtout si elles sont utilisées par des gens qui ne savent pas interpréter les résultats.

Par exemple : si vous aspirez les 100 premiers titres/snippets des résultats de google sur une requête donnée, que vous les passez dans une moulinette pour calculer leurs taux de cooccurence, et que vous regardez les termes qui ressortent avec le plus fort taux pour les inclure dans vos pages, vous allez en réalité faire reculer votre référencement. Les termes qu'il faut réellement inclure se trouvent parfois à partir de la dixième ou de la vingtième position ! Choisir les bons termes demande une très bonne connaissance des mécanismes à l'oeuvre dans les outils statistiques, de savoir les interpréter, et même d'une bonne expérience de leur utilisation en référencement car cela reste très très empirique.

La méthode la plus économique et la plus sûre, c'est le plus souvent d'écrire en langage naturel.

WebRankInfo · 11 Février 2007

Salut Cariboo, ça faisait un bail ;-)
Merci pour tes explications, y'a pas à dire tu sais bien ce qu'il faut expliquer sur la LSI.
Quand tu dis

Cariboo a dit:
Les termes qu'il faut réellement inclure se trouvent parfois à partir de la dixième ou de la vingtième position !

tu fais comment pour savoir quels termes sélectionner ? Sur quoi tu te bases pour dire que les termes trouvés dans les tout premiers résultats vont dégrader ton référencement ?
Olivier

cariboo · 11 Février 2007

Quand on analyse un texte avec ce genre de méthodes statistiques, les termes qui sortent avec un très fort taux sont ceux rattachés à la thématique générale dont parle le texte, ceux avec un taux moyen sont ceux liés à la thématique, et ceux avec un taux plus faible sont ceux liés à des sous-thématiques plus précises. C'est très schématique ce que je dis là mais en gros c'est ça.

Donc si on prend les premiers termes, on déplace la thématique du texte vers la thématique générale, au lieu de l'ancrer dans la thématique précise dont il parle à l'origine.

La méthode pour déterminer quels termes choisir est empirique. Du moins je n'ai pas trouvé de règles dans la littérature sur le sujet permettant de dire "à partir de tel rang c'est bon". Parce qu'il n'y a pas que le classement qui compte, le niveau du taux de cooccurence doit être pris en compte aussi, or le nombre de termes ayant un fort taux de cooccurence varie suivant les textes analysés et leur sujet.

Tout l'art de la méthode est de savoir où commencer et où s'arrêter. Autant dire que souvent ce travail peut se faire intuitivement sans recours à cette méthode, surtout si on maîtrise le sujet à traiter.

colagen · 12 Février 2007

Beh, j'aurais pas posté pour rien, merci de ces explications limpides.

En supposant que l'algorithme de google soit parfait, il serait judicieux d'analyser un ensemble important de textes portant sur la thématique que l'on souhaite traiter. On pourrait alors supposer, si la quantité de texte est suffisante, avoir un bon aperçu du vocabulaire employé pour cette thématique et en quel proportion. Il n'y aurait plus qu'a comparer avec son propre texte et le réequilibrer de façon à coller un maximum avec l'analyse .

Après quant à savoir jusqu'ou cela doit coller, il n'y a comme méthode que notre bon sens (par exemple, si la thématique est les couches pour bébés, quand tu est allé suffisament loin pour voir des termes comme ménopause, et béh .. tu est allé trop loin (quoi que ...)

) .

Pour les textes séléctionnés dans l'analyse, choisir les premiers sur les SERP de google n'est pas vraiment important. L'algorithme changera et le but n'est donc pas de coller à des textes qui se positionne bien pour le moment, mais tout simplement d'avoir le texte le plus pertinent possible (en apparence tout du moins). Et dans ce cas là, la qualité (ou plûtot toujours la pertinence) des textes séléctionné pour l'analyse importe peut. Même si ils sont mal écrits, cela se compensera en en prenant une quantité suffisante.

A la lumière de tes posts voilà ce que j'ai compris. Bon la méthode est assez coûteuse en temps mais autrement ... j'ai bon ? :wink:

Ton article chez S.Billard est très intérressant, il permet une bonne approche du concept. Y a-t-il sur la toile des documents expliquant la "mécanique" mathématique liée à la L.S.I (plus en détail) ?

dawei · 29 Novembre 2007

Effectivement Cariboo tu fais un article très interessant, mais...

Si on va jusqu'à des sous thematiques en fonction de la densité, tout devient très vite interconnecté dans le sens ou, à partir de "ménopose" on peut aller vers medecine, puis médicament, puis dopage, puis sport...

En partant donc de "bébé", on arrive à "sport", ne serait on pas aller trop loin..???

Je vois ca plutot dans l'autre sens.
Le termes avec des densités les plus élévés seraient les sujet précises, et les termes moins dense seraient des ensembles thématiques