1. ‍Vérifiez vos pages zombies SEO sur votre site !!! Elles plombent votre référencement et ne vous rapportent rien... Je le détaille dans mon tuto Pages Zombies SEO
    Rejeter la notice

Latent Semantic Indexing (LSI) dans l'algo de Google

Discussion dans 'Techniques avancées de référencement' créé par WebRankInfo, 19 Février 2005.

  1. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 384
    J'aime reçus:
    175
    [message posté en complément du blog]

    Google utilise-t-il les techniques de Latent Semantic Indexing? Lisez la dernière newsletter d'Axandra (en anglais) pour mieux comprendre comment Google pourrait bien accorder plus de poids aux notions de Latent Semantic Indexing (LSI) depuis la dernière mise à jour de son algorithme :

    - Qu'est-ce que "latent semantic indexing?" ?
    - Pourquoi est-ce important pour le référencement ?
    - Où peut-on trouver plus d'information au sujet de LSI ?

    Voici un extrait (traduit) de cette lettre :

    Pour ma part, je me demande si c'est vraiment utilisé par Google pour les pages en français. L'opérateur ~ par exemple ne fonctionne pas pour le français.

    Qu'en pensez-vous ?
     
  2. rituel
    rituel WRInaute passionné
    Inscrit:
    15 Mars 2003
    Messages:
    1 031
    J'aime reçus:
    0
    Je doute que cela soit utilisé à la vue des résultats peu probants de la commande related qui serait la première à utiliser cette technologie ... Mais si l'on y vient cela ne fera qu'améliorer la pertinence de Google que ce soit pour les recherches ou pour les Adsense.
     
  3. Cendrillon
    Cendrillon WRInaute accro
    Inscrit:
    17 Août 2004
    Messages:
    3 944
    J'aime reçus:
    0
    je suis convaincue que cette technologie est déjà utilisée depuis longtemps par Google (sous cette forme ou sous une autre) ... pour moi cela rejoint la notion de thématique ...
    nous l'avons expérimentée depuis longtemps sur nos sites d'e-commerce : par exemple sur une page qui parle d'imprimante, nous aurons tendance à générer des liens vers d'autres modèles d'imprimantes, et si cette page parle plus particulièrement d'imprimante HP, alors nous générons des liens vers d'autres modèles d'imprimantes HP (c'est ce que nous appellons "génération de liens thématique") ... et ainsi de suite pour chaque gamme de produits ... et cela donne de très bons résultats ...
    je suis convaincue que cela augmente la pertinence des pages appellantes et appellées sur une thématique donnée ...
     
  4. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 384
    J'aime reçus:
    175
    moi aussi je pense que c'est utilisé, mais je fais remarquer qu'il n'est pas évident que ce soit aussi avancé en français qu'en anglais.

    le related: est basé sur les liens semble-t-il, et non pas sur les aspects sémantiques

    alors que l'opérateur ~ semble être bcp plus proche de ce genre de technos.

    comparez en anglais ~car (qui met en gras des termes sémantiquement proches des voitures) et en français ~voiture qui ne met en gras que le mot voiture (ou voitures)

    Cendrillon, les résultats de ta technique sont peut-être liés aux liens que tu ajoutes entre tes pages
     
  5. Théophraste
    Théophraste WRInaute impliqué
    Inscrit:
    22 Juillet 2004
    Messages:
    784
    J'aime reçus:
    0
    Message bien reçu, merci Cendrillon !
     
  6. rituel
    rituel WRInaute passionné
    Inscrit:
    15 Mars 2003
    Messages:
    1 031
    J'aime reçus:
    0
    Finalement d'accord avec toi Olivier, mais comment se fait-ce qu'ils ne l'utilisent pas pour related: qui veut bien dire "en rapport" ... Car là actuellement ne sert à rien du tout ...
     
  7. u8086
    u8086 WRInaute accro
    Inscrit:
    24 Mai 2004
    Messages:
    2 590
    J'aime reçus:
    0
    Si je comprends bien, cela voudrait dire que GG appliquerait une compréhension sémantique :
    - au contenu de la page
    - aux liens vers la page

    Il en résulterai pour la page :
    - que optimiser une page sur un mot-clé n'est plus nécessaire
    - que trop spécialiser une page expose a un risque confusion dans les termes et i.e. dans la définition du thème de la page

    Il en résulterai pour les liens :
    - une évaluation thématique des pages faisant des liens entre elle
    - donc une création de "galaxies" de sites abordant les même thèmes
    - on peut enfin supposer qu'un lien entre 2 pages de la même galaxie a plus de pertinence (de sens) qu'un lien entre sites aux thèmes différents

    Ca vous parle ?
     
  8. u8086
    u8086 WRInaute accro
    Inscrit:
    24 Mai 2004
    Messages:
    2 590
    J'aime reçus:
    0
    D'ailleurs, l'effet Sandbox pourrait s'expliquer par un filtre sémantique :

    Les sites (jeunes ou pas ?) vers lesquels affluent des liens dénués de pertinence thématique seraient filtrés ??

    J'avoue que ca correspond assez au profil de mes 2 sites sandboxés...
     
  9. dièse
    dièse WRInaute discret
    Inscrit:
    11 Juillet 2004
    Messages:
    95
    J'aime reçus:
    0
    Pour le mot voiture, sort aussi le mot véhicule ;). Ce qui est marrant ce que pour les mots ayant la même orthographe en français et en anglais, les synonimes anglais sortent sur le serveur FR. Il n'y a qu'un seul lexique :? .
     
  10. dièse
    dièse WRInaute discret
    Inscrit:
    11 Juillet 2004
    Messages:
    95
    J'aime reçus:
    0
    Je pense que ça n'a pas trop de rapport. Par contre dans la mesure où Google établit facilement la thématique d'un site, la sévérité pour sur-optimisation sur un seul mot-clé doit être bien plus grande.
     
  11. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 384
    J'aime reçus:
    175
    tu as raison dièse, je n'avais pas bien regardé, je m'étais penché surtout sur les titres qui comportent surtout le mot voiture dans mon exemple.
    Je retire donc ce que j'ai dit, mais il faudrait creuser un peu plus cette histoire qui me semble très importante dans l'algo de Google aujourd'hui...
     
  12. u8086
    u8086 WRInaute accro
    Inscrit:
    24 Mai 2004
    Messages:
    2 590
    J'aime reçus:
    0
    Est-ce qu'il y a déjà eu un test pour vérifier qu'un lien entre 2 pages sémantiquement proches a plus de "poids" qu'un lien entre pages au sens éloignés ?

    si non, qu'elle forme pourrait prendre ce test ?
     
  13. Cendrillon
    Cendrillon WRInaute accro
    Inscrit:
    17 Août 2004
    Messages:
    3 944
    J'aime reçus:
    0
    je ne crois pas que cela suffirait, tout le monde fait des liens entre ses pages ...
    je pense que le fait qu'un lien soit fait entre deux pages d'une même thèmatique avec un texte de lien lui même dans la même thèmatique renforce les pages appelante et appelée dans la thèmatique concernée, et le lien devrait avoir plus de poids plus de poids ... :wink:
     
  14. u8086
    u8086 WRInaute accro
    Inscrit:
    24 Mai 2004
    Messages:
    2 590
    J'aime reçus:
    0
    Comment on pourrait vérifier ça ?
     
  15. pene-r
    pene-r WRInaute passionné
    Inscrit:
    12 Janvier 2005
    Messages:
    1 000
    J'aime reçus:
    0
    Ola,
    ne pourrait on pas vérifier ça en faisant un triple test, dans les forum test,

    Je n'y connais pas grand chose mais si on fait:
    une page texte, sans lien,
    une autre même texte avec liens thématique,
    une dernière même texte autant de liens, mais des liens pas thématique.

    Je l'aurai bien fait, mais quand j'ai lu les recomandations du forum test, j'ai eu peur de faire une connerie ...
    alors si quelqu'un se le sent et que ça peut faire avancer le schmilblick.

    bon ben finalement, je l'ai lancé ce test, ici
     
  16. cariboo
    cariboo WRInaute impliqué
    Inscrit:
    8 Février 2003
    Messages:
    703
    J'aime reçus:
    0
    Il est pratiquement impossible à mon avis de savoir si Google utilise un algo de type LSI ou n'importe quel autre algo permettant d'avoir un critère basé sur la linguistique statistique et les mesures de similarité.

    Mais il est hautement probable que Google utilise effectivement depuis quelque temps un algorithme sophistiqué, plus sophistiqué que les mesures à base de tf*idf.

    Quelques tests avec la commande "tilde" démontrent de toute façon que Google a à sa disposition un thesaurus, voire une ontologie complète.

    Ce qui me laisse perplexe (et apparemment je ne suis pas le seul) c'est que rien ne permet de penser que les changements de classement apparus récemment aient quelque chose à voir avec cela...

    Quant à LSI, c'est un vieux serpent de mer concernant google, qui ressort aussi souvent que l'algo Hilltop...

    Au fait, LSI ne permet pas tout seul de déterminer la thématique d'une page...
     
  17. Mac Fruitos
    Mac Fruitos WRInaute discret
    Inscrit:
    28 Juin 2003
    Messages:
    167
    J'aime reçus:
    0
    Existe t-il un site référence en matière de champ sémantique pour trouver des synonymes proches à un mot donnée ? Sinon la solution reste de regarder les sites bien placés sur une requête et de regarder quels mots du titre ou de la description se rapprochent du mot-clef.

    Voici un exemple de recherche sémantique sur Google qui met en évidence que même sur les recherches francophones le ~ peut s'appliquer : ~renault
    (mais je soupconne fort que ce soit du au fait que la recherche a un sens en anglais et que les mots associés : CLIO et NISSAN sont valables pour les anglo-saxons aussi)
     
  18. ocsima
    ocsima WRInaute impliqué
    Inscrit:
    4 Septembre 2004
    Messages:
    559
    J'aime reçus:
    0
    Si quelqu'un connaît un équivalent français à WordNet
    Merci
     
  19. rituel
    rituel WRInaute passionné
    Inscrit:
    15 Mars 2003
    Messages:
    1 031
    J'aime reçus:
    0
  20. yannouk
    yannouk WRInaute passionné
    Inscrit:
    11 Octobre 2003
    Messages:
    1 812
    J'aime reçus:
    0
    J'utilise souvent, tres pertinent!
     
  21. ocsima
    ocsima WRInaute impliqué
    Inscrit:
    4 Septembre 2004
    Messages:
    559
    J'aime reçus:
    0
    Oui merci de me le rappeler et des progrès ont été faits
    Mais avez-vous pu downloader quelque chose ?
     
  22. rituel
    rituel WRInaute passionné
    Inscrit:
    15 Mars 2003
    Messages:
    1 031
    J'aime reçus:
    0
    Non, par contre si tu essayes de faire ce à quoi je pense, à savoir de la suggestion de mots-clefs dynamiques le tout enrobé d'URL-Rewriting à la Kelkoo, tu trouveras peut être de quoi faire ici.
     
  23. ocsima
    ocsima WRInaute impliqué
    Inscrit:
    4 Septembre 2004
    Messages:
    559
    J'aime reçus:
    0
    Non pas tout à fait. Je réfléchis à la possibilité d'une extension sémantique de requêtes suivie d'une classification des pages retournées.
     
  24. caro
    caro WRInaute impliqué
    Inscrit:
    21 Juillet 2003
    Messages:
    828
    J'aime reçus:
    0
    salut,

    je suis en phase de conclusion concernant des test effectués sur la sémantique grâce à un thésaurus.

    pour l'instant (je dis bien pour l'instant) tous les tests analysés montrent que google.FR ne réagit pas du tout à l'insertion de clés synonymes, racines et ou similaires

    pour effectuer ces tests j'ai crée un thésaurus de quelques termes et fais des pages de liaisons, contenus, densités, ..., égales.
    aucune page développée de manière sémantique ne permet à google de lui conférer un sens supplémentaire et de lui faire prendre le dessus par rapport à une page "normale".

    conclusion actuelle :
    google n'utilise pas de critères sémantiques dans son algo actuel.

    ps: je suis entièrement d'accord avec cariboo, les changements actuels n'ont aucun rapport avec des changements d'algo au niveau de la sémantique.
     
  25. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 384
    J'aime reçus:
    175
    Merci caro pour ton retour d'expérience très intéressant ;-)
     
  26. u8086
    u8086 WRInaute accro
    Inscrit:
    24 Mai 2004
    Messages:
    2 590
    J'aime reçus:
    0
    Bravo et merci de partager ces vérifications empiriques qui demandent beaucoup de travail.
     
  27. Kanta
    Kanta WRInaute occasionnel
    Inscrit:
    22 Octobre 2004
    Messages:
    328
    J'aime reçus:
    0
    Je ne pense pas car on est normalement pas responsable des bls vers notre site. Si ton site est bien construit et utile il obtiendra naturellement des bls de personnes qui le jugent intéressant, sans pour autant que le site sur lequel ils placent ce bl soit du même thème que le tien.
     
  28. u8086
    u8086 WRInaute accro
    Inscrit:
    24 Mai 2004
    Messages:
    2 590
    J'aime reçus:
    0
    Ouep, je me range à ton avis (le message que tu cites date un peu).

    Il y a bien une difficulté à positionner un site jeune.
    Et il y a bien des pénalités pour les campagnes de création de backilinks artificiels... ce qui renforce la difficulté à référencer un site jeune.
     
  29. pocketmofo
    pocketmofo Nouveau WRInaute
    Inscrit:
    7 Septembre 2006
    Messages:
    6
    J'aime reçus:
    0
    Oui google fait de l'analyse semantique mais à un niveau tres superficiel.

    J ai realise des test sur des sites multilangues et une conclusion parait claire: les particules ont une importance majeure.
    Par exemple des particules comme : Vom, Von , Der, Aus qui sont allemandes feront que votre page sera reference dans la langue allemande quelquesoit le langage declaré dans la page.

    J'imagine que leur algorithmes travaille sur la proportion de ses particules par rapport au nombre total de mots dans la page. Enfin ca n'est qu'une hypothèse.

    Google n'ira pas jusqu'a vérifier le sens d'une phrase, ni la disposition des mots dans celle ci.
     
  30. buzzistic
    buzzistic WRInaute discret
    Inscrit:
    6 Juillet 2006
    Messages:
    168
    J'aime reçus:
    0
    Il existe aussi l'atlas sémantique développé par le CNRS ici : http://dico.isc.cnrs.fr

    Je l'utilise très régulièrement et il donne bien l'idée de ce que l'on peut attendre des notions de "sens" et "concept".
     
  31. colagen
    colagen Nouveau WRInaute
    Inscrit:
    30 Novembre 2006
    Messages:
    41
    J'aime reçus:
    0
    Je relance ce topic qui me parait important. Savoir si la lci est utilisé ou non dans google permettrait de créer son contenu en adéquation.
    Je débute en référencement et je n'ai donc aucun retour d'experience à donner.
    J'avais tendance à penser (comme beaucoup apparement) que la lci est à prendre en compte dans notre façon de rédiger nos pages. Mais ca reste seulement intuitif.

    Certains y adhèrent complètement en tout cas.

    Si des gens passent ici avec un avis qui se base sur autre chose que l'intuition je suis preneur :wink:
     
  32. cariboo
    cariboo WRInaute impliqué
    Inscrit:
    8 Février 2003
    Messages:
    703
    J'aime reçus:
    0
    C'est LSI, ou LSA, et non lci . :wink:

    Ceux qui y "adhèrent complètement" comme tu dis agitent surtout leur maîtrise de LSI pour attirer des clients en expliquant comment ils vont pouvoir faire des miracles avec cette méthode scientifique.

    Maintenant, quand on lit leur prose, on se marre souvent car elle révèle qu'ils ne comprennent pas plus LSI que... leurs clients.

    J'ai écrit un article sur le blog d'un référenceur bien connu pour éviter que, comme dans la seosphere anglophone, les référenceurs francophones prennent ces arguments attrape-gogos pour argent comptant. WRI s'en était fait l'écho à l'époque :

    https://www.webrankinfo.com/dossiers/r-et-d/latent-semantic-indexing

    En fait, il est franchement difficile (voire impossible) de rédiger ses pages avec LSI en tête... Ce que révèle LSI, ce sont des relations cachées entre des éléments qui a première vue ne sont pas corrélés. Mais cet ordre latent n'est que la résultante directe de la structure de la pensée humaine telle qu'elle est couchée noir sur blanc dans un texte en langage naturel.
    LSI est avant tout une méthode d'analyse statistique des termes contenu dans des textes, et ce n'est pas une méthode d'optimisation. On peut l'utiliser au coeur d'un moteur de recherche, certains ont expérimenté la méthode, avec plus ou moins de bonheur, car le paramétrage est difficile et surtout diffère selon les corpus analysés et les objectifs poursuivis.

    Je comprend que l'on puisse faire le raisonnement suivant : "si un nouvel algo est utilisé, je dois adapter mon référencement à cette nouvelle méthode". Donc si Google utilise LSI, je dois optimiser mes pages en pensant à LSI.

    En fait, ce qu'il faut se dire, c'est que tous les moteurs utilisent intensivement des méthodes de linguistique statistique dans leurs algos. Lesquelles, quelles variantes ? On ne sait pas exactement, c'est leur secret le mieux gardé. Mais quelle que soit la méthode utilisée, comme on ne la connait pas, ce qui marche le mieux, c'est d'écrire des textes en langage naturel, et par ailleurs de travailler sur les autres critères "in page" dont l'effet sur le référencement est, par contre, facilement identifiable voire mesurable.

    Les tentatives pour "doper" les textes avec des méthodes statistiques sont souvent hasardeuses, surtout si elles sont utilisées par des gens qui ne savent pas interpréter les résultats.

    Par exemple : si vous aspirez les 100 premiers titres/snippets des résultats de google sur une requête donnée, que vous les passez dans une moulinette pour calculer leurs taux de cooccurence, et que vous regardez les termes qui ressortent avec le plus fort taux pour les inclure dans vos pages, vous allez en réalité faire reculer votre référencement. Les termes qu'il faut réellement inclure se trouvent parfois à partir de la dixième ou de la vingtième position ! Choisir les bons termes demande une très bonne connaissance des mécanismes à l'oeuvre dans les outils statistiques, de savoir les interpréter, et même d'une bonne expérience de leur utilisation en référencement car cela reste très très empirique.

    La méthode la plus économique et la plus sûre, c'est le plus souvent d'écrire en langage naturel.
     
  33. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 384
    J'aime reçus:
    175
    Salut Cariboo, ça faisait un bail ;-)
    Merci pour tes explications, y'a pas à dire tu sais bien ce qu'il faut expliquer sur la LSI.
    Quand tu dis
    tu fais comment pour savoir quels termes sélectionner ? Sur quoi tu te bases pour dire que les termes trouvés dans les tout premiers résultats vont dégrader ton référencement ?
    Olivier
     
  34. cariboo
    cariboo WRInaute impliqué
    Inscrit:
    8 Février 2003
    Messages:
    703
    J'aime reçus:
    0
    Quand on analyse un texte avec ce genre de méthodes statistiques, les termes qui sortent avec un très fort taux sont ceux rattachés à la thématique générale dont parle le texte, ceux avec un taux moyen sont ceux liés à la thématique, et ceux avec un taux plus faible sont ceux liés à des sous-thématiques plus précises. C'est très schématique ce que je dis là mais en gros c'est ça.

    Donc si on prend les premiers termes, on déplace la thématique du texte vers la thématique générale, au lieu de l'ancrer dans la thématique précise dont il parle à l'origine.

    La méthode pour déterminer quels termes choisir est empirique. Du moins je n'ai pas trouvé de règles dans la littérature sur le sujet permettant de dire "à partir de tel rang c'est bon". Parce qu'il n'y a pas que le classement qui compte, le niveau du taux de cooccurence doit être pris en compte aussi, or le nombre de termes ayant un fort taux de cooccurence varie suivant les textes analysés et leur sujet.

    Tout l'art de la méthode est de savoir où commencer et où s'arrêter. Autant dire que souvent ce travail peut se faire intuitivement sans recours à cette méthode, surtout si on maîtrise le sujet à traiter.
     
  35. colagen
    colagen Nouveau WRInaute
    Inscrit:
    30 Novembre 2006
    Messages:
    41
    J'aime reçus:
    0
    Beh, j'aurais pas posté pour rien, merci de ces explications limpides.


    En supposant que l'algorithme de google soit parfait, il serait judicieux d'analyser un ensemble important de textes portant sur la thématique que l'on souhaite traiter. On pourrait alors supposer, si la quantité de texte est suffisante, avoir un bon aperçu du vocabulaire employé pour cette thématique et en quel proportion. Il n'y aurait plus qu'a comparer avec son propre texte et le réequilibrer de façon à coller un maximum avec l'analyse .

    Après quant à savoir jusqu'ou cela doit coller, il n'y a comme méthode que notre bon sens (par exemple, si la thématique est les couches pour bébés, quand tu est allé suffisament loin pour voir des termes comme ménopause, et béh .. tu est allé trop loin (quoi que ...) :) ) .

    Pour les textes séléctionnés dans l'analyse, choisir les premiers sur les SERP de google n'est pas vraiment important. L'algorithme changera et le but n'est donc pas de coller à des textes qui se positionne bien pour le moment, mais tout simplement d'avoir le texte le plus pertinent possible (en apparence tout du moins). Et dans ce cas là, la qualité (ou plûtot toujours la pertinence) des textes séléctionné pour l'analyse importe peut. Même si ils sont mal écrits, cela se compensera en en prenant une quantité suffisante.

    A la lumière de tes posts voilà ce que j'ai compris. Bon la méthode est assez coûteuse en temps mais autrement ... j'ai bon ? :wink:

    Ton article chez S.Billard est très intérressant, il permet une bonne approche du concept. Y a-t-il sur la toile des documents expliquant la "mécanique" mathématique liée à la L.S.I (plus en détail) ?
     
  36. dawei
    dawei WRInaute discret
    Inscrit:
    6 Mars 2007
    Messages:
    70
    J'aime reçus:
    0
    Effectivement Cariboo tu fais un article très interessant, mais...

    Si on va jusqu'à des sous thematiques en fonction de la densité, tout devient très vite interconnecté dans le sens ou, à partir de "ménopose" on peut aller vers medecine, puis médicament, puis dopage, puis sport...

    En partant donc de "bébé", on arrive à "sport", ne serait on pas aller trop loin..???

    Je vois ca plutot dans l'autre sens.
    Le termes avec des densités les plus élévés seraient les sujet précises, et les termes moins dense seraient des ensembles thématiques
     
Chargement...
Similar Threads - Latent Semantic Indexing Forum Date
Le LSI, latent semantic indexing, un mythe ! Référencement Google 10 Avril 2009
Latent Dirichlet Allocation (LDA) et référencement Google Rédaction web et référencement 7 Septembre 2010
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice