Outil sémantiques

Nouveau WRInaute
Bonjour à tous,

Je reviens sur WRI (même recréé un compte ^^) je me pose une question, quel outil de sémantique utilisez-vous ?

Plutôt 1.fr, cocon.se ou juste un bon gros yoast dans wordpress ? Ou alors rien de tout ça et juste du spin ?
j'étais plutôt sur du yoast couplé à 1.fr pour ma part, puis je me suis dis allé je test cocon.se mais pour l'instant ça n'est pas très concluent...

je suis preneur de vos avis !
 
Nouveau WRInaute
Perso j'utilise l'outil d'analyse sémantique que j'ai développé et que je met à disposition gratuite des utilisateurs et qui est encore en Béta.

Etant gratuit j'espère que je suis autorisé à le partager, vous pouvez y accéder et l'utiliser à http://www.seo-hero.tech

Cet outil d'analyse sémantique va aller récupérer en temps réel la sémantique latente de n'importe quel mot clé. Le principe est très simple, vous tapez un mot clé sur l'outil, et il va effectuer en direct la meme recherche sur Google. Ensuite un parsing est réalisé sur les 100 premiers documents desquels sont extraits et classifiés des termes, expressions, entités, n-grams.

Quel est l'objectif de tout ça ? Il y a de nombreux intérêts, mais pour rester simple un des intérêts est d'avoir de suite une idée très claire des expressions récurrentes dans un secteur d'activité. Cela aide a comprendre quels termes ne devraient pas manquer à vos contenus.

L'outil fait également beaucoup d'autres choses, on pourrait en discuter une autre fois si jamais ça intéresse quelqu'un. En tout cas il est gratuit vous n'avez rien à perdre à l'essayer et à l'approuver... ou non.
 
WRInaute occasionnel
@Furtif Tropes est un super outil (je connais un des créateurs, avec qui j'ai l'occasion de dialoguer dans le cadre du boulot). Ceci étant pour faire de l'analyse à vocation pure SEO/positionnement c'est moins utile car il privilégie une approche morpho-lingustique là où les moteurs font de la (très pauvre en comparaison) statistique uniquement.
Avec Tropes on peut "s'aider" pour faire des beaux textes, mais finalement pas toujours très optimisés "moteurs".
 
WRInaute accro
Avec Tropes on peut "s'aider" pour faire des beaux textes, mais finalement pas toujours très optimisés "moteurs".

Le but d'un moteur est de fournir le résultat le plus pertinent par rapport a une requete, l'évolution des algos (machine Learning par ex) vont dans ce sens et il faut en tenir compte. c'est au moteur de s'adapter a l'humain, pas le contraire, je prefere faire de "beaux" contenus optimisés "humain" (la langue française est suffisamment riche), plutôt que du texte uniquement "optimisé" moteur.
D'autant que le referencement naturel est determiné également par de nombreux autres facteurs...
 
WRInaute occasionnel
Oui mais les moteurs sont encore loin du compte, si tu veux une optimisation qui marche demain il faut utiliser des outils statistiques.
Par ailleurs les moteurs abandonnent complètement l'idée de la morpho-linguistique avec le machine learning. Grosso modo l'approche de la linguistique un peu formelle n'a jamais percée hors usage d'étude de la langue.

Sinon, mais c'est un point de détail, l'objectif du moteur n'est pas de répondre à la requête mais au besoin informationnel, il y a plus de puissances de calcul mis sur la modification/compréhension du besoin caché derrière la requête que sur la recherche dans l'index des documents "pertinents" pour la requête. La plupart du temps cela revient au même, mais quand on se trompe sur la requête ou qu'il y a ambiguité, alors le moteur doit s'affranchir de la requête pour répondre ce que l'on attend.
C'est pour ça qu'on bosse sur du prédictif hors requête d'ailleurs.
 
Nouveau WRInaute
sypsyp a dit:
La plupart du temps cela revient au même, mais quand on se trompe sur la requête ou qu'il y a ambiguité, alors le moteur doit s'affranchir de la requête pour répondre ce que l'on attend.
C'est pour ça qu'on bosse sur du prédictif hors requête d'ailleurs.
Qu'est-ce que tu entends par prédictif hors requête?

Aussi qu'est que tu entends par outils statistiques?

PS: désolé de m'incruster dans le sujet pour poser mes questions, mais je suis dans la rédaction de contenus internes en ce moment et je m'arrâche les cheveux pour savoir si je répète tel mot-clé, combien de fois et avec quelles variantes etc. Comment je dois parler aux moteurs en fait... et quand je regarde certains concurents qui se contentent de bourriner de mots-clés et que ça fonctionne, je n'y comprend plus rien :( Donc comme je vois qu'il y a des "experts" ici j'en profite pour essayer de mieux comprendre :)
 
WRInaute occasionnel
Qu'est-ce que tu entends par prédictif hors requête?

C'est la personnalisation/contextualisation qui va être utilisé en plus de la requête. Au final quand on tape une requête, le vecteur que le moteur utilise est dès fois très loin du vecteur de la requête car il y a utilisation de la personnalisation/contextualisation, de l'expansion de requête (liée au signaux utilisateurs via rocchio ou équivalent, et aux données d'usages via desambiguisation) pour modifier le vecteur.

Aussi qu'est que tu entends par outils statistiques?

Un des outils suivants : 1.fr, visiblis, metamots (dans cocon.se) et yourtext.guru
Je pense que l'outil seo-hero.tech est bon aussi mais je laisse Walid confirmer, je ne sais pas exactement ce qui est calculé.
 
Nouveau WRInaute
OK merci beaucoup, c'est un peu compliqué pour moi actuellement mais je crois avoir compris l'idée:

Si j'ai bien compris, en fait par exemple (très grossier mais c'est pour voir si j'ai bien compris le principe): si l'internaute recherche "chaussure nike", le moteur va dériver sur "chaussures de sport" car il sait, suivant certains critères (par exemple le profil de l'internaute en question), que cette requête connexe correspond mieux à sa demande. Et d'autre part le moteur va élargir la recherche à des mots-clés connexes autour de la requête de base ex: "chaussure nike solde". Est-cela?

J'ai testé l'outils 1.fr pour un site mais j'ai eu l'impression qu'il me sortait simplement les mots-clés du générateur adwords, je me trompe j'imagine. Ca marche comment ces outils tel que "métamots" etc.?
 
WRInaute occasionnel
En fait là où tu te trompes (et la plupart des gens aussi) c'est que tu raisonnes sur des mots en parlant de l'élargissement de la requête. C'est vrai en partie (pour la partie de reformulation pour casser les ambiguités), mais l'expansion est d'abord un concept qui s'applique sur le vecteur de la requête. Le moteur peut utiliser un vecteur qui ne correspond pas réellement à une requête "humaine", c'est là que les outils interviennent car eux aussi utilisent des vecteurs (en fait ils re-calculent les vecteurs qu'utilisent le moteur).

La plupart des outils sémantiques utilisent les résultats de GG pour ta requête cible, plus des statistiques d'un corpus générique et ont un algorithme de scoring des mots pour te proposer les mots importants. Ce qui diffèrent entre les outils c'est généralement cet algo et la méthodologie (de scrap, de nettoyage, etc.). Pour yourtext.guru, dont j'ai fait l'algo, nous calculons des vecteurs de contextes, mais en utilisant une méthode interprétable (=pas de réseaux de neurones).
 
Nouveau WRInaute
Merci pour ces précieuses explications :)

Si j'ai bien compris, les documents sont scannés par GG puis regroupés sous forme mathématique (vecteurs), l'algo n'a plus qu'à manipuler ces formes algébriques pour glisser/étendre les recherches, c'est cela?

Si oui, je me demande du coup comment les outlis comme yourtext.guru peuvent parvenir à vectoriser de la "même" manière que l'algo GG?

Je suppose que vous (ou d'autres) procédez à des expériences sur l'algo GG pour essayer de confirmer ou infirmer vos hypothèses sur la nature même de l'algo.

Mais est-ce vraiment possible de se rapprocher de l'algo? Comment savoir qu'on y est parvenu? (peut-être en prédisant partiellement les résultats de GG sur d'autres requêtes? (ça a été fait?)
 
WRInaute occasionnel
Nicko1 a dit:
Si j'ai bien compris, les documents sont scannés par GG puis regroupés sous forme mathématique (vecteurs), l'algo n'a plus qu'à manipuler ces formes algébriques pour glisser/étendre les recherches, c'est cela?

C'est exactement ça.

Si oui, je me demande du coup comment les outlis comme yourtext.guru peuvent parvenir à vectoriser de la "même" manière que l'algo GG?

Je suppose que vous (ou d'autres) procédez à des expériences sur l'algo GG pour essayer de confirmer ou infirmer vos hypothèses sur la nature même de l'algo.

Mais est-ce vraiment possible de se rapprocher de l'algo? Comment savoir qu'on y est parvenu? (peut-être en prédisant partiellement les résultats de GG sur d'autres requêtes? (ça a été fait?)

En fait la plupart des algos sont connus, ce qui n'est pas connu c'est le paramétrage (la ventialtion) entre le poids de chaque algo. Mais on peut faire de l'apprentissage des paramètres pour prédire les classements (et donc connaitre les poids), puis ensuite on peut apprendre les scores de chaque mots/ensembles de termes pour chaque requête, et le tour est joué.

Pour la prédiction du classement, Vincent Terrasi (le data scientist d'OVH) à écrit un article chez nous, le voici :
https://freres.peyronnet.eu/predire-rankings-de-google-vincent-terrasi ... dit-faire/

Pour un exemple d'apprentissage de paramètres (ici le penguin) :
https://freres.peyronnet.eu/classification-cest-notre-grande-passion/
 
Nouveau WRInaute
Merci pour les liens, ils sont très intéressants! Et le script https://github.com/ovh/summit2016-RankingPredict semble vraiment incroyable!

sypsyp a dit:
En fait la plupart des algos sont connus, ce qui n'est pas connu c'est le paramétrage (la ventialtion) entre le poids de chaque algo. Mais on peut faire de l'apprentissage des paramètres pour prédire les classements (et donc connaitre les poids), puis ensuite on peut apprendre les scores de chaque mots/ensembles de termes pour chaque requête, et le tour est joué.
Justement ce que je me demande c'est comment faire de l'apprentissage de paramètres autrement qu'en partant de cas particuliers? Car cela semble dangereux, en effet les paramétrages réels peuvent être très différent de ceux hypothétiquement "trouvés" mais tout de même produire des résultats similaires sur pas mal de requête j'imagine non?

Aussi, quand tu dis que les algo sont connus que veux tu dire exactement? Qu'ils sont publiés par GG quelquepart? Divulgés par des ingénieurs GG (fuites etc.) ou qu'on peut les deviner à partir de modèles d'algos connus les plus performants dans le domaine de la calssification/recherche de contenu?...

Finalement, je me demandais, est-ce que GG applique son principe de vecteurs aux backlinks et à leur ancres? Et donc une ancre A pourrait être efficace pour ranker sur le mot-clé B car GG étendrait la mesure de popularité à plusieurs expressions/groupes sémantiques comme pour il le fait pour le contenu?
 
WRInaute occasionnel
Pour avoir assez de data il suffit de scrapper Google. Par exemple un corpus générique pour de l'analyse sémantique c'est quelques centaines de milliers de pages et ça suffit pour ensuite se différencier des corpus limités aux requêtes. Pour calibrer un filtre anti-spam, un moteur a besoin d'environ 30k pages seulement.

Les algos sont tous connus, les plus vieux datent des années 60. La communauté scientifique est dynamique dans le secteur, les ingénieurs des uns passent chez les autres, il y a bien peu de secret entre les différentes boites de la tech.
 
Nouveau WRInaute
OK, je comprends mieux merci :) Des pistes pour en savoir plus sur les algos? Scholar?
Par contre vu que j'ai édité mon message je sais pas si tu avais pu voir ma question sur les ancres?
 
WRInaute occasionnel
j'avais pas vu pour les ancres : le contenu de l'ancre peut être considéré comme faisant partie du contenu de la page cible, c'est pour ça que le bourrinage d'ancre fonctionne bien ;)

Sinon, scholar bonne piste, et le blog research de GG.
Tu peux chercheur spécifiquement les articles des conférences WSDM et WWW, c'est les principales dans le monde.
 
Nouveau WRInaute
sypsyp a dit:
j'avais pas vu pour les ancres : le contenu de l'ancre peut être considéré comme faisant partie du contenu de la page cible, c'est pour ça que le bourrinage d'ancre fonctionne bien ;)
Pourquoi tu dis "peut être considéré"? C'est pas à tous les coups?

Tu entends quoi par bourrinage exactement?

Mais du coup si c'est considéré comme faisant partie du contenu, ça veut dire que simplement écrire l'ancre en texte dans la page cible et utiliser une ancre type naked link sur le site source ça revient au même résultat?

sypsyp a dit:
Sinon, scholar bonne piste, et le blog research de GG.
Tu peux chercheur spécifiquement les articles des conférences WSDM et WWW, c'est les principales dans le monde.
Parfait, merci infiniment c'est très sympa!
 
Discussions similaires
Haut