Calculer l'indice de densité pour plusieurs mots-clés

Olivier Duffez (admin)
Membre du personnel
A votre avis comment faut-il faire pour calculer un indice de densité de mots-clés (IDM) lorsqu'il y a plusieurs mots-clés ?
Je précise la question avec un exemple : je cherche "referencement google" sur Google. Je veux calculer l'IDM pour certaines pages de mon site. Je compte donc le nb de fois où je trouve "referencement google" (sans tenir compte des majuscules/minuscules) dans mon texte, et je le divise par le nombre de mots de ma page ?
et que dois-je faire des expressions comme "referencement sur google" ? elles ne comptent pas ?
ou alors "referencement optimise pour google" ?
ou alors "google referencement" ?

en clair, il est simple de calculer un IDM pour un mot clé unique, mais dès lors qu'il y a plusieurs mots-clés ça se complique pas mal.
des idées là-dessus ?
 
Nouveau WRInaute
Très bonne question :

Je me suis mis dans l'idée que google réfléchit en "IDM cumulé", je m'explique
Si le mot seul "referencement" à un IDM de 9%
Si le mot "google" à un IDM de 3% (toujours sur la même page), je m'était dit que google considérait l'expression entière à 12%
Si 12% est l'IDM idéal (CE QUE PERSONNE N'OSE PARLER SUR CE FORUM) alors l'expression "referencement google" obtient un excelent positionnement (si bien sur le reste suit : titre avec l'expression, mot clé dans l'url, lien sur l'expression, balise h1 et tout le toutim)

Si referencement et google ont un idm de 9% chacun, la requête entiere fait 18% et badaboom on explose le plafond (PEU ETRE) et le site est en classement degressif.

J'en suis à cette conclusion car je positionne le mot peche et poisson, obtient de bon résultats pour chaque mot séparé et plouf je tombe dans les profondeurs du classement à la requête "peche poisson"

De toute façon, avec le traitement que doit faire les serveurs google, il me parait plausible de déterminer chaque idm de chaque mot de chaque page mais de la à calculer l'idm de chaque expression possible à 2 termes de chaque page ouaaa

Ex : une page 400 mots := nombre de combi à 2 mots := 400 +399+398+397......+2+1
Ca fait lourd à digerer non

Autre hypothèse toujours dans le cadre d'idm cumulé
Requête à 1 mot clé --> IDM maxi de X%
Requête à 2 termes --> IDM maxi de Y%
Par ex x=18 et y=25 (TOUJOURS EN EXEMPLE BIEN SUR)
 
WRInaute discret
Tout d'abord, il faut bien savoir de quoi l'on parle, car il y a une différence entre:
1-referencement google
et
2-"referencement google"

Dans le cas 1, google cherche les 2 mots (ET), donc pour moi l'IDM serait une valeur comprise entreidm(referencement) et idm(google) (la fonction math. n'est pas si simple, ce n'ets pas un + ou une moyenne )

Dans le cas 2, c'est facile, c'est l'idm de l'expression, et pour ton exemple "referencement sur google" ne génère pas une occurence de -"referencement google". Mais ce cas ne doit pas etre tres fréquent dans les recherches faites par les internautes....

Pour cette étude j'ai testé sur google les 2 expressions, et cela m'a amené à une découverte très intéressant:
Recherchez le cas 2: "referencement google" (sans oublier les guillements!) en Fance
- le 1er résultat est https://www.webrankinfo.com/
- le 2eme resultat est -http://www.netb_ooster.fr/google.htm
Ce qui est le plus intéressant se voit en regardant le cache de ces 2 pages, où l'expression apparait en jaune:
- 1er resultat, google indique:
"Ces termes apparaissent uniquement dans les liens pointant sur cette page : referencement google "
-2eme resultat, google indique:
"Les termes de recherche suivants ont été mis en valeur : referencement google"
et l'expression apparait en jaune 1 seule fois.

Conclusion:
L'idm dans le premier résultat de l'expression est nulle, car il n'y a aucune apparition, alors que dans le 2eme resultat, il est non nul, car l'expression apparait au moins une fois.
Ce qui fait la difference, c'est que l'expression apparait dans un lien pointant vers le résultat 1.
On peut donc en conclure, preuve à l'appui, que le critere du "mot dans le lien pointant sur la page" est plus important que "l'IDM(mot) dans la page".
ce qui est plus surprenant, c'est que le l'idm(mot) dans la page peut meme etre egal à 0 !
Il se peut que ce résultat soit en partie spécifique à une recherche sur un groupe de mot, avec comme hypothèse possible, un idm(mot 1) et idm(mot 2) non nuls bien que idm(mot1 mot 2) soit nul.

Pour moi cela confirme les suppositions de Katia sur son classement des premiers criteres!
(bravo katia !)

Qu'en pensez-vous?

Julien
 
WRInaute discret
Oups.. dan sma précipitation j'ai oublié de vérifiez les PR:
- resultat 1: PR 6
-resultat 2: PR 5

Cela n'enleve rien au resultat sur l'etude de l'idm (qui n'a donc pas beaucoup d'importance), mais on ne peut pas dire si le classement provient du PR ou de la presence de l'expression dans le lien.
Domage que le resultat 2 n'ait pas eu un PR6, car cela aurait permis de classer ces 2 criteres.

Egalement, j'ai zappé, le 2eme resultat de https://www.webrankinfo.com:
https://www.webrankinfo.com/forum/t/la-google-dance-a-commence-mise-a-jour-mensuelle.43/
Qui donne aussi une information:
son PR est 4, donc inferieur au resulat 2 (PR5), et l'expression n'y apparait aussi qu'une unique fois.
Pour comparer l'idm de l'expression, sans connaitre la formule exacte, il suffit donc de compter le nombre de mots (au sens google, c-a-d ans les "le, la, les, des, etc..;")
Si quelqu'un a le courrage....

mais j'ai l'impression que l'idm du resulat 2 est supérieur... ce qui signifie, que ce qui départage les 2 résultats, ce n'est ni le PR, ni l'IDM.
le nombre de liens? ou autre....



Julien
 
A
Anonymous
Guest
Le fait que les 2 pages ayant des résultats assez proches appartiennent au même site ?
 
Olivier Duffez (admin)
Membre du personnel
Julien a dit:
Domage que le resultat 2 n'ait pas eu un PR6, car cela aurait permis de classer ces 2 criteres.
Je ne suis pas d'accord ! Il ne faut pas oublier que le PR affiché par la Toolbar n'est qu'une approximation très grossière du PR réel.
Donc 2 sites qui ont le même Toolbar-PR peuvent très bien être très éloignés en terme de PR (surtout si l'échelle n'est pas linéaire, et que les PR non arrondis sont 6.1 et 6.9)...
Ceci dit c'est avec des exemples comme ça qu'on va réussir à classer l'importance de tous ces critères :wink:
 
A
Anonymous
Guest
IDM de plusieurs mots

Si l'on condidère que l'IDM pour un mot est la probabilité de tomber sur le mot "google" dans la page, si on tire le mot au hasard, alors il est facile de calculer ça pour plusieurs mots.

Pour une page X quelconque, son IDM pour le mot google est :
P(google | X) = {nbre de fois où le mots google apparait} / {nombre total de mots}

On peut étendre le raisonnement pour un groupe de mots, si on cherche l'IDM pour les mots google et référencement, (sans qu'ils se suivent forcement), on cherche la probabilté, en tirant deux mots au hasard, d'avoir google et référencement, on calcule donc :
P(google, référencement | X) = P(google | X) . P(référencement | X)
donc
P(google, référencement | X) = {nbre de fois où google apprarait} x {nbre de fois où référencement apparait} / {nombre total de mots}²

Si par contre, on cherche l'IDM pour la suite de mots "google référencement", c'est la probabilité de tomber sur cette suite, si on tire des groupes de deux mots successifs :
P("google référencement" | X) = {nombre de fois où "google référencement" apparait} / {nombre de bigrammes dans le texte}
un bigramme est une suite de deux mots, il vient donc
P("google référencement" | X) = {nombre de fois où "google référencement" apparait} / ({nombre total de mots} - 1)

Voilà, j'espère vous avoir éclairé un peu.
 
WRInaute passionné
Bonjour,

ce qui complique le calcul c'est que les articles sont ignorés ( la, le, les, l' ) alors que les de, du, des sont pris en compte, paraît-il .... et au, à, aux ... :?:

Le raisonnement de JeanNo est logique mais le traitement des articles par les moteurs complique les choses : le nombre de bigrammes dans une page est différent du nombre de mots - 1.
De plus au nombre d'occurences "referencement google" il faut ajouter le nombre de "referencement le google", ... ( l'article le est incorrect ici, c'est juste pour l'exemple).

Cordialement
 
Olivier Duffez (admin)
Membre du personnel
Re: IDM de plusieurs mots

JeanNo a dit:
On peut étendre le raisonnement pour un groupe de mots, si on cherche l'IDM pour les mots google et référencement, (sans qu'ils se suivent forcement), on cherche la probabilté, en tirant deux mots au hasard, d'avoir google et référencement, on calcule donc :
P(google, référencement | X) = P(google | X) . P(référencement | X)
donc
P(google, référencement | X) = {nbre de fois où google apprarait} x {nbre de fois où référencement apparait} / {nombre total de mots}²
Je pense qu'il y a une erreur dans cette dernière formule : il faut ajouter une racine carrée. Sinon, en prenant l'exemple où le mot google apparait 3 fois, et référencement 3 fois aussi, sur 10 mots en tout, l'IDM de la paire (google, référencement) serait de 3x3/(10x10) = 9/100 = 9% alors qu'en fait ce serait plutôt 3%

Autre remarque : tu utilises en quelque sorte une moyenne géométrique alors que d'habitude on fait une moyenne arithmétique. Explications : je pensais additionner les occurrences des deux mots et diviser le tout par (2x nb mots dans la page).

2ème remarque : pour calculer tout ça en prenant en compte le fait que certains mots ne comptent pas, on pourrait commencer par supprimer du texte tous ces mots qui ne comptent pas, si bien qu'on se ramène à un cas simple ?
 
A
Anonymous
Guest
Je ne pense pas qu'il y ait d'erreur

Si dans un texte de 100 mots, il y a 3 fois le mot google et 3 fois le mot référencement, alors il y a :
- 3% de chances de tomber sur google en tirant un mot au hasard
- 3% de chances de tomber sur google en tirant un mot au hasard
- 0,09% de chances de tomber sur (google, référencement) ou (referencement google)

Peut-être n'as tu pas bien vu le carré au dénominateur.

Concernant les moyennes, je précise que ça n'est pas ce que je fais, je fais simplement des probas.
D'autre part, faire une moyenne des IDM que tu obtiens pour les mots pris individuellement n'a aucune signification. Avec cette méthode, tu obtiens un IDM de 1,5% pour un texte de 100 mots qui contient 3 fois le mot google, et 0 fois le mot référencement.

Par contre, il est bien exact qu'il faut supprimer les mots ignorés par le moteur de recherche avant d'effectuer les calculs que j'ai mentionnés plus haut.
 
A
Anonymous
Guest
Oups

En fait tu considérais un document de 10 mots,
dans ce cas, je maintiens bien que c'est 9% et non 3% (je ne sais pas d'où tu sors le 3% d'ailleurs)
 
WRInaute discret
Re: IDM de plusieurs mots

WebRankInfo a dit:
Sinon, en prenant l'exemple où le mot google apparait 3 fois, et référencement 3 fois aussi, sur 10 mots en tout, l'IDM de la paire (google, référencement) serait de 3x3/(10x10) = 9/100 = 9% alors qu'en fait ce serait plutôt 3%

Attention, la racine carrée de 9% n'est pas 3% mais 30% car 30%=0.3 et 0.3*0.3=0.09=9%

Pour ma part, je suis tout à fait d'accord avec la formule de jeano:
P("google référencement" | X) = {nombre de fois où "google référencement" apparait} / ({nombre total de mots} - 1)
qu'il faut limité à un nombre de mots >1

Pour le probleme des mots pris en compte ou pas par google, cela ne change rien au probleme, mais plutot au referenciel dans lequel on se place.
Si l'on vise la proba vue par google, il suffit de supprimer les mots "le" "la" et "les" et pas "du" "de" "au", etc... (test sur un groupe de mot, google précise ce qui ne compte pas)
mais de toute façon on n'aura pas la proba exacte, parce que 'on ne sait pas comment gérer les cas problematique (formaule mathémathique, caractères spéciaux, etc...)

Toutefois on pourrait développer un script simple en php qui donne un iDM pour un mot ou groupe de mot d'une page dont l'URL est donnée, par exemple avec la fct php "explode()" avec le caractere " " comme séparateur (penser à filtrer le text avant pour virer les baslises html, les commentaires, le javascript et tous les caractères spéciaux, ponctuation, etc.. , en éliminant ensuite tous les "le" "la" les".

En utilisant les expressions régulières( fct eregi() ), ça devrait pas être tres compliqué, et ça serait un outil utile pour ton site WRI !

Julien
 
Olivier Duffez (admin)
Membre du personnel
Au temps pour moi, j'ai fait pas mal d'erreurs dans mon message.
1/ 3 mots sur 10 cela fait bien 30% et non 3%
2/ la racine carrée de 9% est bien 30%, désolé pour cette grossière erreur.

Par contre j'ai toujours du mal à te suivre pour la formule. Si je reprends mon exemple (pas très réaliste je vous l'accorde), quel est l'IDM des mots-clés référencement google ? Attention, je ne parle pas de la requête "référencement google" qui impose que les mots se suivent dans cet ordre. C'est donc le nb de fois où on trouve les mots référencement et google dans la page, rapporté au nombre de mots.
Soit on peut dire qu'il y a 3 fois "référencement" ET 3 fois "google" sur 10 mots, ce qui donne 6 mots sur 10 soit 60% ?
Soit il faut dire qu'il y a (3+3) / (10+10) = 6 / 20 = 3 / 10 = 30% (c'est ce que je voulais dire avec mon 3% mais il me manquait un 0)

En fait là où j'ai du mal avec ta formule, c'est quand tu dis que c'est des probas... Quand j'ai bossé sur les probas, j'ai appris que la proba de 2 événements indépendants est égale à la SOMME des probas de chaque événement, et non pas le PRODUIT... Je me trompe ??? Ou alors on ne parle pas de la même chose ?

Une fois qu'on sera d'accord, vous verrez fleurir un nouveau script sur WRI, bien sûr !
 
A
Anonymous
Guest
Explications

Tout d'abord, il n'y a pas deux événements, il n'y en a qu'un seul puisque on tire une paire de mots.

Si tu additionnes les probabilités, tu changes le problème : ce que tu calcules c'est la probabilité en tirant un mot au hasard de tomber sur google OU sur référencement.
L'IDM c'est la probabilité en tirant une paire de mots, de tomber sur {google, référencement}
C'est bien les paires qu'il faut considérer car google fait des "ET' entre les mots, si un mot de la requête ne figure pas dans le document, ce dernier n'est pas séléctionné.

De plus, oublie la racine carrée, il n'y en a pas. Par contre, il faut rajouter un facteur 2 si l'on considère que la permutation en google et référencement n'a pas d'importance.
Si on condère le document formé des 10 mots google1 google2 google3 référencement1 référencement2 référencement3 mot1 mot2 mot3 mot4.
Alors en appliquant ma formule, on obtient :
IDM = 2 x {nbre de fois google} x {nbre de fois référencement} / {nbre total de mots}²
IDM = 2 x 3 x 3 / 10² = 18%
(Bon le facteur 2 ne sert pas à grand chose pour comparer les IDM, mais on va le laisser pour plus de compréhension)
Pour te convaincre que ça fait bien 18%, on peut employer une bonne vieille méthode : je vais t'énumérer tous les tirages possibles.

Les 18 tirages qui comportent google et referencement sont :
(google1 référencement1) (google1 référencement2) (google1 référencement3)
(google2 référencement1) (google2 référencement2) (google2 référencement3)
(google3 référencement1) (google3 référencement2) (google3 référencement3)
(référencement1, google1) (référencement1, google2) (référencement1, google3)
(référencement2, google1) (référencement2, google2) (référencement2, google3)
(référencement3, google1) (référencement3, google2) (référencement3, google3)

Les 82 tirages restants qui ne donnent pas {google, référencement} sont :
(mot1, mot1) (mot1, mot2) (mot1, mot3) (mot1, mot4) x 4 = 16
(google1, google1) (google1, google2) (google1, google3) x 6 = 18
(google1, mot1) (google1, mot2) (google1, mot3) (google1, mot4) x 6 = 24
(mot1, google1) (mot1, google2) (mot1, google3) x 4 = 12
(mot1, référencement1) (mot1, référencement2) (mot1, référencement3) x 4 = 12

Par pitié, ne m'obligez pas à tout énumérer :o)
 
A
Anonymous
Guest
Merci pour tes explications détaillées JeanNO, on pourrait généraliser à un nombre de mots N d'un texte de n mots:
avec la recherche de l'IDM N-uplets mots {mot1, mot2, ..., motN}=A

sauf erreur la proba est:
IDM(A)= N! * p(mot1)*p(mot2)...*p(motN)

soit IDM(A)=N! x {nbre de fois mot1} x {nbre de fois mot2} ...x {nbre de fois motN} / {nbre total de mots}^N

C'ets bien ça JeanNO?

Julien
 
A
Anonymous
Guest
IDM

je pense que l'IDM est pondéré pas d'autres critères.

un IDm fort sur un mot peu etre négatif si google l'assimile à du spam ou alors positif.

j'ai par ex. une densité assez forte pour 2 ou 3 mots qui reviennent dans presque toutes mes pages et elle ne sont pas pénalisées car se sont les mots qui caractérisent mon site , et je pense que Google sait en tenir compte.

je viens de voir que j'ai la page d'accueil d'un site en 1ere page sur le mot "annuaires"
et ce mot est répété plus de 100 fois dans les balises title des liens.
 
Olivier Duffez (admin)
Membre du personnel
OK, je comprends qu'on ne parlait pas de la même chose !
Effectivement je vois pourquoi tu utilises un produit dans la mesure où l'absence d'un mot doit conduire à un IDM nul.
La formule de de Julien est-elle bonne alors ?

Sinon alainb, on est bien d'accord qu'il peut y avoir d'autres critères de pondération, mais si on arrivait déjà à calculer l'IDM ce serait pas mal, non ?
 
A
Anonymous
Guest
IDM

La dernière formule est bien exacte,
P({mot1, mot2, ..., motn} | X) = n! P(mot1 | X).P(mot2 | X) ... P(motn | X)
soit
P({mot1, mot2, ..., motn} | X) = n! {nbre mot1}.{nbre mot2}...{nbre motn} / {nbre total de mots}^n

Et comme ce sont des probas, elles somment toutes à 1.
 
Discussions similaires
Haut