outil de calcul - co-occurrence

Nouveau WRInaute
Je viens de terminer la programmation d'un nouvel outil simple de référencement: un calculateur de co-occurrence.
http://www.jazar-international.com/outils/co-occurrence.html

Le principe est simple - déterminer la proximité sémantique de deux mots clés, pour aider au choix des combinaisons à utiliser dans les titres et description.

Toutes suggestion d'améliorations, ou commentaires sur les explications fournies sur la page sont les bienvenus!

Manu
 
WRInaute occasionnel
bonjour,
sympa comme outil (ainsi que le site) mais je trouve un peu bête que se soit limité à seulement 2 mots
 
Nouveau WRInaute
Merci pour ton commentaire.

La prise en compte de trois mots clés est plus délicate, car nous avons alors à faire à plusieurs connections.

Choix numéro 1: calcul de co-occurence sur toutes les paires - cela revient au même que sur notre site (du moins pour trois mots clés).

- exemple - : "emmanuel petit charcutier"
emmanuel petit: 0.0781577110956
petit charcutier: 0.00157312568732
emmanuel charcutier: 0.000541458606184

Note: ceci n'est peut-etre pas le meilleur exemple - si je suis charcutier, et que je m'appelle emmanuel, je ne vais surement pas faire un calcul de co-occurence sur "emmanuel petit". Mais bon, cela tient lieu d'illustration.

Choix numéro 2: calcul exact de co-occurence:
Le calcul de c0-occurence doit se faire en mode "exact" - en d'autres termes, il faut envoyer15 requetes (c1, c2, c3, c12,c13,c21, c23, c32, c31, c123, c132, c231, c213, c312, c321)... ce qui prend deja beaucou plus de ressources - je te laisse faire le calcul pour 4 mots clés.

Choix numéro 3: utiliser un des mots clés comme pont (concept expliqué ici par exemple: http://forums.searchenginewatch.com/sho ... php?p=2269).

Mais ceci est un outil différent, sur lequel je travaille d'ailleurs.
 
Nouveau WRInaute
Pas d'autres réactions? - étrange, je pensais que plus de monde serait intéressé par cet outil.
 
Olivier Duffez (admin)
Membre du personnel
très intéressant jazar, ça me permet de comparer à mon outil de co-occurrence
(exemple ici)

que penses-tu des changements faits par Google sur le nb de résultats indiqué pour chaque requête ? tout a augmenté il y a qq semaines, j'espère que c'est quand même encore fiable car cet outil repose bcp dessus.

PS : présentation de mon outil :
Un nouvel outil à tester sur WebRankInfo vous permet de calculer l’indice de co-occurrence de 2 ou 3 termes, ainsi que le ratio E/F.

co-occurrence.jpg

L’indice de co-occurrence

L’indice de co-occurrence mesure le relation entre les termes : plus cet indice est élevé, plus les termes sont reliés. Concrètement, plus l’indice est élevé, plus il est fréquent de trouver des documents qui contiennent les différents termes.

Cet indice est souvent exprimé en ppt (pour mille) mais nous le donnons également sous forme de distance (dans ce cas plus les termes sont reliés plus la distance est faible bien entendu). En général, plus l’indice de co-occurrence est élevé, plus la concurrence dans Google est forte pour la requête constituée des différents termes.

Le ratio E/F
L’indice de co-occurrence ne tient pas compte de l’ordre des mots. Par contre, le ratio E/F se base justement sur l’ordre des mots : plus le ratio E/F est fort, plus il est fréquent de trouver sur le web les mots dans cet ordre.

Cet outil calcule à la fois l’indice de co-occurrence et le ratio E/F. Il devrait vous être utile pour choisir les bons mots dans vos expressions stratégiques. Il permet de répondre à des questions du genre « Faut-il optimiser plutôt »location de voiture » ou »location auto » ?
 
Nouveau WRInaute
L'outil n'etait pas référencé lorsque j'ai fait une recherche dans google - intéressant de voir que cette discussion est desormais en première page pour la requête "co-occurrence" :)

Un calcul sur 3 mots clés me semble cependant discutable - l'utilises-tu en pratique?

Le mot "fiabilité" est également discutable - nous prenons ici en compte les pages dupliquées, mais devraient-elle rentrer en compte dans l'équation par exemple? L'outil est à prendre avec des pincettes, comme tout outil de reverse ingeneering:

Il y a donc un degré d'incertitude, et ce degré je pense ne varie pas en fonction du nombre des résultats retournés par Google - le nombre de résultats a augmenté de façon constante (illustration ici : http://aixtal.blogspot.com/2005/09/goog ... rreur.html), et non pas du jour au lendemain.
 
Nouveau WRInaute
Nous utilisons systématiquement cet outil dans notre processus de recherche de mots clés. Généralement, je ne pense pas que cet outil soit cependant très utilisé encore.
 
Nouveau WRInaute
je viens de lire l'article et je n'ai pas pas compris à quoi sert cet outil

j'ai bien lu "Il permet de répondre à des questions du genre "Faut-il optimiser plutôt ''location de voiture'' ou ''location auto'' ?..." mais ensuite quel est la réponse ?
 
WRInaute impliqué
m@thieu a dit:
je viens de lire l'article et je n'ai pas pas compris à quoi sert cet outil

j'ai bien lu "Il permet de répondre à des questions du genre "Faut-il optimiser plutôt ''location de voiture'' ou ''location auto'' ?..." mais ensuite quel est la réponse ?

Si j'ai bien compris, une fois que tu connais quels mots clefs optimisés, tu n'as plus qu'à travailler en ce sens. :wink:

Pour ma part, dans le doute, je viens de l'utiliser et cela m'a conforté dans une certaine voie.

Moins de travail,.... donc !
 
Olivier Duffez (admin)
Membre du personnel
Si tu hésites entre plusieurs associations de mots (par exemple, faut-il privilégier "location auto" ou "location voiture"), l'outil te conseille de prendre l'expression qui a le plus fort indice de co-occurrence (cela signifie tout simplement qu'il y a plus d'utilisations sur le web d'une des deux associations de mots).

Si tu hésites entre plusieurs ordres de mots ("recettes desserts" ou "desserts recettes"), l'outil te conseille de prendre celui qui a le plus fort ratio E/F.

Le petit hic c'est que l'outil utilise l'API et donc que les résultats peuvent être étonnants :-( C'est le cas avec mes tests où les résultats sur le ratio E/F semblent complètement faux :-(
 
Nouveau WRInaute
WebRankInfo a dit:
Si tu hésites entre plusieurs ordres de mots ("recettes desserts" ou "desserts recettes"), l'outil te conseille de prendre celui qui a le plus fort ratio E/F.
ah ok c'est ça que j'avais mal compris, merci :)

pour ce qui est des problème de l'API, je pense qu'il faut relancer l'outil toutes les 2 semaines et voir comment ça évolue
 
Olivier Duffez (admin)
Membre du personnel
je sens que je vais tester avec l'API de Yahoo pour voir si c'est mieux... car là c'est du n'importe quoi les résultats.
 
WRInaute passionné
WebRankInfo a dit:
je sens que je vais tester avec l'API de Yahoo pour voir si c'est mieux... car là c'est du n'importe quoi les résultats.

tes résultats ne sont pas si aberrants que ça ( en tout cas avec le test suivant ) : konica minolta dimage

Je n'indique que les ratio E/F :
konica minolta dimage : 616,7 ppt

konica minolta : 796,8 ppt
minolta konica : 0,7 ppt

L'ordre est logique, c'est Konica qui a racheté Minolta.

dimage minolta : 15 400,8 ppt
konica dimage : 1,7 ppt
Logique le Dimage était une marque appartenant à Minolta avant le rachat.
Juste un petit doute sur le très fort score de dimage minolta. L'inverse m'aurait paru plus logique.

Sur cet exemple, les résultats me semblent plutot satisfaisant.
 
Nouveau WRInaute
Nous arrivons au coeur du problème. Car l'utilsation d'un outil "théorique" n'est pas un réel objet d'inquiétude - tout outil de recherche sémantique evolué utilise sous une forme ou une autre les calculs de co-occurrence. donc il semble évident que l'algorithme de Google l'utilise aussi.

Mais quelle données utiliser?

L'API donne un accès relativement aisé à certaines données. Mais sont-elles fiables? et l'utilisation des paramètres est-elle approporiée?

1) Fiabilité
Il semble que les donnée retournée par l'API ne corresponde à aucun datacenter (même pas le serveur api.google.com). Donc il est raisonnable de se poser la question de la fiabilité des résultats. Je n'ai aucune réponse la dessus! La seule chose que je puisse dire, c'est que nous assumons que les données retournées sont exploitable, et comparable.

2) Utilisation des paramètres
L'outil utilisaient les paramètres par defaut (hl=en, lr=lang_en). pour une recherche sur des termes français, il semble préférable de modifier ces paramètres: hl=fr et hr=lang_fr. c'est fait. A terme, nous ajouterons une selection de ces paramètres à l'outil.
 
Discussions similaires
Haut