Latent Dirichlet Allocation (LDA) et référencement Google

WebRankInfo · 7 Septembre 2010

D'après une étude de SEOmoz, il est possible que Google utilise dans son algo une analyse du type de LDA (Latent Dirichlet Allocation). Je vous suggère de lire son article et de tester son outil afin de pouvoir en débattre ici.

En tout cas cela risque de renforcer l'intérêt pour ce qu'on appelle parfois le référencement éditorial, ou disons l'optimisation du référencement naturel par un bon rédactionnel.

PS: pour les "nuls", une explication en français

ddpetit · 7 Septembre 2010

Bonjour Olivier,

Je compte réagir à votre message concernant le LDA. Encore est-il normal que Google recherche des mots clés en rapport avec le mot que vous souhaitez positionner afin de vérifier si le sens est le bon. Ainsi, si votre site parle de cheval, le fait d'utiliser les mots "chevaux" ou encore "écurie" va rassurer le moteur de recherche dans le sens de vos phrases voir de votre site.

Ainsi on peut distinguer plusieurs formes du LDA : sur une phrase (recherche de mots coïncidents) ou encore à travers un ou plusieurs paragraphes.

Cette information n'est pas nouvelle, mais la révélation par SEOmoz a fait grand bruit !

Certains qui utilisent l'outil gratuit Gnoztik s'en sont déjà rendus compte. Le logiciel propose en effet dans ses rapports de rajouter des mots clés non présents sur votre site et qui pourraient vous permettre d'augmenter vos positions sur le mot clé voulu, ce grâce à une analyse des autres sites.

J'utilise en partie cette technique pour référencer mes sites internet depuis un certain temps maintenant, et c'est vrai que cela marche bien, mais il ne faut pas oublier le reste, c'est à dire du bon contenu, des liens et de la popularité. Peut-être en parliez-vous déjà dans vos formations à l'écriture web ?

WebRankInfo · 8 Septembre 2010

euh oui en effet ça fait pas mal d'années qu'on explique qu'il faut ajouter des mots "connexes" en rapport avec le mot-clé principal. J'en ai parlé par exemple avec la LSI il y a 5 ANS

Et effectivement on l'explique aussi en formation à l'écriture web.

Mais là c'est plus crédible je pense, car la LSI ne me semble pas "scalable", adaptable aux volumes traités par Google. Cela dit j'aimerais bien l'avis de spécialistes de LDA.

u8086 · 8 Septembre 2010

WebRankInfo a dit:
Mais là c'est plus crédible je pense, car la LSI ne me semble pas "scalable", adaptable aux volumes traités par Google. Cela dit j'aimerais bien l'avis de spécialistes de LDA.

Complètement d'accord avec ça.
J'ai pas encore approfondi la mécanique du test de SEOmoz, mais c'est encourageant.

alavache · 8 Septembre 2010

WebRankInfo a dit:
euh oui en effet ça fait pas mal d'années qu'on explique qu'il faut ajouter des mots "connexes" en rapport avec le mot-clé principal.

Ce n'est effectivement pas vraiment une surprise.

ddpetit · 9 Septembre 2010

Par contre, j'ai envie d'aller plus loin et de vous demander si on ne peut pas appliquer ce principe aux backlinks ?

Est-ce que en gros par exemple si on veut se placer sur "cheval", des backlinks avec le mot "chevaux" va-t-il nous aider ? Je pense que cela joue un peu, après je n'ai pas fait de test pour le démontrer.

fredfan · 9 Septembre 2010

Est-ce qu'il y a un risque de sur-optimisation sémantique ?
S'il est normal d'utiliser des termes de même environnement fréquemment dans une page, il apparaît aussi des mots sans aucun rapport avec le sujet quand on écrit sans arrière-pensée SEO. Et on n'écrit jamais avec tous les mots liés au sujet, sauf si un logiciel nous incite à le faire. Est-ce que quelqu'un a constaté que la présence de ce type de hors-sujet ou l'absence de quelques mots importants liés au sujet pourraient rassurer Google sur les intentions de l'auteur ?

Leonick · 9 Septembre 2010

personnellement, je pense qu'il doit y avoir une liaison avec l'énorme base de livres que gg a scanné. Même si on n'écrit pas de la même façon en ligne que IRL (il faut que les contenus soient plus concis, plus percutants, rien que pour accaparer l'attention de l'internaute, sans même penser SEO), mais il a ainsi de grosses bases de documents dans pas mal de domaines. Et s'ils ont étudié la dispersion de la représentativité des mots employés IRL et comparé sur cette même dispersion sur internet, ils doivent pouvoir en établir des correspondances.

WebRankInfo · 14 Septembre 2010

Pour ceux que ça intéresse, allez lire cet article de Sylvain Peyronnet

artscoop · 14 Septembre 2010

J'ai lu les 2/3 de l'article tout de suite et il y a une question qui me vient :
La LDA permet de séparer des thématiques sur les bases de probabilités. Ok, mais sur un texte typique de spam avancé, avec une syntaxe correcte mais aucun sens, est-ce que les outils sortent :
- Aucune thématique ?
- Plusieurs thématiques non reliées ?

Si l'on ressort plusieurs thématiques non reliées entre elles, considère-t-on toujours que l'on est en présence de spam ?
Enfin, même là, je sais que des générateur produisent du texte dégueulasse dont on peut retirer, malheureusement, une thématique.

En bref, je suis pas sûr de la valeur et de l'utilisation qu'on peut attribuer au traitement de documents avec cette méthode (si utilisée seule).

sypsyp · 14 Septembre 2010

Enfin, même là, je sais que des générateur produisent du texte dégueulasse dont on peut retirer, malheureusement, une thématique.

Un générateur markovien de base génère des textes qui sont tous dans la même thématique si le corpus d'apprentissage ne contient que des textes d'une même thématique.
Globalement, on ne peut pas vraiment utiliser la LDA en même temps pour detecter le spam et pour inférer les topics. D'autant plus que la première tâche (detecter le spam) n'a pas de sens en tant que telle car il y a plusieurs types de spam qui nécessitent des méthodes tout à fait différentes de detection. Si on veut detecter des textes générés aléatoirement, il y a des méthodes de pré-filtrages très efficaces et beaucoup plus simple à utiliser que la LDA (batterie de filtres statistiques par exemple).

J'édite pour donner mon sentiment sur la bonne manière de faire un moteur : à mon sens la tâche de détection du spam doit se faire à l'indexation des pages. Lors du calcul de popularité/similarité on peut faire du déclassement de spam avec des méthodes adaptées, mais sans le detecter (oui, c'est possible).