Latent Dirichlet Allocation (LDA) et référencement Google

Discussion dans 'Rédaction web et référencement' créé par WebRankInfo, 7 Septembre 2010.

  1. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 824
    J'aime reçus:
    7
    D'après une étude de SEOmoz, il est possible que Google utilise dans son algo une analyse du type de LDA (Latent Dirichlet Allocation). Je vous suggère de lire son article et de tester son outil afin de pouvoir en débattre ici.

    En tout cas cela risque de renforcer l'intérêt pour ce qu'on appelle parfois le référencement éditorial, ou disons l'optimisation du référencement naturel par un bon rédactionnel.

    PS: pour les "nuls", une explication en français
     
  2. ddpetit

    ddpetit WRInaute discret

    Inscrit:
    22 Février 2006
    Messages:
    79
    J'aime reçus:
    0
    Bonjour Olivier,

    Je compte réagir à votre message concernant le LDA. Encore est-il normal que Google recherche des mots clés en rapport avec le mot que vous souhaitez positionner afin de vérifier si le sens est le bon. Ainsi, si votre site parle de cheval, le fait d'utiliser les mots "chevaux" ou encore "écurie" va rassurer le moteur de recherche dans le sens de vos phrases voir de votre site.

    Ainsi on peut distinguer plusieurs formes du LDA : sur une phrase (recherche de mots coïncidents) ou encore à travers un ou plusieurs paragraphes.

    Cette information n'est pas nouvelle, mais la révélation par SEOmoz a fait grand bruit !

    Certains qui utilisent l'outil gratuit Gnoztik s'en sont déjà rendus compte. Le logiciel propose en effet dans ses rapports de rajouter des mots clés non présents sur votre site et qui pourraient vous permettre d'augmenter vos positions sur le mot clé voulu, ce grâce à une analyse des autres sites.

    J'utilise en partie cette technique pour référencer mes sites internet depuis un certain temps maintenant, et c'est vrai que cela marche bien, mais il ne faut pas oublier le reste, c'est à dire du bon contenu, des liens et de la popularité. Peut-être en parliez-vous déjà dans vos formations à l'écriture web ?
     
  3. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 824
    J'aime reçus:
    7
    euh oui en effet ça fait pas mal d'années qu'on explique qu'il faut ajouter des mots "connexes" en rapport avec le mot-clé principal. J'en ai parlé par exemple avec la LSI il y a 5 ANS :) Et effectivement on l'explique aussi en formation à l'écriture web.

    Mais là c'est plus crédible je pense, car la LSI ne me semble pas "scalable", adaptable aux volumes traités par Google. Cela dit j'aimerais bien l'avis de spécialistes de LDA.
     
  4. u8086

    u8086 WRInaute accro

    Inscrit:
    24 Mai 2004
    Messages:
    2 870
    J'aime reçus:
    0
    Complètement d'accord avec ça.
    J'ai pas encore approfondi la mécanique du test de SEOmoz, mais c'est encourageant.
     
  5. alavache

    alavache Nouveau WRInaute

    Inscrit:
    15 Novembre 2007
    Messages:
    41
    J'aime reçus:
    0
    Ce n'est effectivement pas vraiment une surprise.
     
  6. ddpetit

    ddpetit WRInaute discret

    Inscrit:
    22 Février 2006
    Messages:
    79
    J'aime reçus:
    0
    Par contre, j'ai envie d'aller plus loin et de vous demander si on ne peut pas appliquer ce principe aux backlinks ?

    Est-ce que en gros par exemple si on veut se placer sur "cheval", des backlinks avec le mot "chevaux" va-t-il nous aider ? Je pense que cela joue un peu, après je n'ai pas fait de test pour le démontrer.
     
  7. fredfan

    fredfan WRInaute accro

    Inscrit:
    2 Juillet 2008
    Messages:
    3 329
    J'aime reçus:
    0
    Est-ce qu'il y a un risque de sur-optimisation sémantique ?
    S'il est normal d'utiliser des termes de même environnement fréquemment dans une page, il apparaît aussi des mots sans aucun rapport avec le sujet quand on écrit sans arrière-pensée SEO. Et on n'écrit jamais avec tous les mots liés au sujet, sauf si un logiciel nous incite à le faire. Est-ce que quelqu'un a constaté que la présence de ce type de hors-sujet ou l'absence de quelques mots importants liés au sujet pourraient rassurer Google sur les intentions de l'auteur ?
     
  8. Leonick

    Leonick WRInaute accro

    Inscrit:
    8 Août 2004
    Messages:
    22 709
    J'aime reçus:
    0
    personnellement, je pense qu'il doit y avoir une liaison avec l'énorme base de livres que gg a scanné. Même si on n'écrit pas de la même façon en ligne que IRL (il faut que les contenus soient plus concis, plus percutants, rien que pour accaparer l'attention de l'internaute, sans même penser SEO), mais il a ainsi de grosses bases de documents dans pas mal de domaines. Et s'ils ont étudié la dispersion de la représentativité des mots employés IRL et comparé sur cette même dispersion sur internet, ils doivent pouvoir en établir des correspondances.
     
  9. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 824
    J'aime reçus:
    7
    Pour ceux que ça intéresse, allez lire cet article de Sylvain Peyronnet
     
  10. artscoop

    artscoop WRInaute occasionnel

    Inscrit:
    17 Octobre 2008
    Messages:
    344
    J'aime reçus:
    0
    J'ai lu les 2/3 de l'article tout de suite et il y a une question qui me vient :
    La LDA permet de séparer des thématiques sur les bases de probabilités. Ok, mais sur un texte typique de spam avancé, avec une syntaxe correcte mais aucun sens, est-ce que les outils sortent :
    - Aucune thématique ?
    - Plusieurs thématiques non reliées ?

    Si l'on ressort plusieurs thématiques non reliées entre elles, considère-t-on toujours que l'on est en présence de spam ?
    Enfin, même là, je sais que des générateur produisent du texte dégueulasse dont on peut retirer, malheureusement, une thématique.

    En bref, je suis pas sûr de la valeur et de l'utilisation qu'on peut attribuer au traitement de documents avec cette méthode (si utilisée seule).
     
  11. sypsyp

    sypsyp WRInaute occasionnel

    Inscrit:
    10 Juillet 2009
    Messages:
    322
    J'aime reçus:
    0
    Un générateur markovien de base génère des textes qui sont tous dans la même thématique si le corpus d'apprentissage ne contient que des textes d'une même thématique.
    Globalement, on ne peut pas vraiment utiliser la LDA en même temps pour detecter le spam et pour inférer les topics. D'autant plus que la première tâche (detecter le spam) n'a pas de sens en tant que telle car il y a plusieurs types de spam qui nécessitent des méthodes tout à fait différentes de detection. Si on veut detecter des textes générés aléatoirement, il y a des méthodes de pré-filtrages très efficaces et beaucoup plus simple à utiliser que la LDA (batterie de filtres statistiques par exemple).

    J'édite pour donner mon sentiment sur la bonne manière de faire un moteur : à mon sens la tâche de détection du spam doit se faire à l'indexation des pages. Lors du calcul de popularité/similarité on peut faire du déclassement de spam avec des méthodes adaptées, mais sans le detecter (oui, c'est possible).