Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

L’algorithme PHIL de Google, pour classer les sites ou pages en clusters

Il est probable que Panda utilise des algorithmes de classification, pour juger les sites en fonction de leur typologie (et ne pas appliquer les mêmes critères à tous les sites). Peut-être que parmi ces algorithmes figure PHIL (Probabilistic Hierarchical Inferential Learner).

C’est bien entendu  Bill Slawski qui a déniché l’information, au cours de sa lecture du livre In the Plex. PHIL est un système de classification qui catégorise des documents ou des sites web dans des clusters. Certains clusters sont qualifiés de sémantiques car ils sont construits à partir d’algorithmes de type co-occurrence de termes.

Illustration algorithme Phil Google

Interface d'un outil basé sur PHIL (Image seobythesea.com)

PHIL permet :

  • de comparer des concepts figurant dans des requêtes, des documents ou des publicités
  • de comparer des concepts entre 2 documents afin d’en mesurer une distance qui permettra de regrouper des documents dans des clusters
  • dans les cas de requêtes ambiguës, de présenter différents résultats selon leur signification
  • de classifier des textes selon les concepts abordés
  • de deviner si plusieurs mots sont des variantes du même mot avec des fautes d’orthographe, en fonction des concepts induits
On sait que Google utilise ce genre d’algorithme depuis des années dans son programme AdSense. Il l’utilise peut-être aussi dans le cadre de son algorithme de recherche (référencement naturel). C’est à rapprocher d’un autre système assez proche, l’indexation basée sur les phrases (plutôt que les mots simples). Il est possible que Google exploite une taxonomie du genre de celle créée par PHIL, pour comparer la qualité des sites ou des pages d’un même cluster (par exemple abordant les mêmes thématiques), plutôt que de tout mélanger. Par exemple, si on relit les conseils fournis par Amit Singhal au sujet de l’algo Panda, on se rend vite compte que les conseils ne s’appliquent pas à tous les types de sites.
Je vous conseille de lire les explications plus détaillées de Bill, ce sera mieux que mon petit résumé…
Qu’en pensez-vous ?

Cet article vous a-t-il plu ?

Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

9 commentaires

haf

Moi j’ai remarqué un changement dans le webmastertool ma liste de liens pointant vers mon site a été sévèrement revue à la baisse : 5 liens externes… Maj en cours pour un lancement du Panda le 14 juillet en France? Le cadeau de google pour la fête nationale?

Répondre
apprentissage

voila un article bien technique :) finalement ça semble logique tout de même . On ne peut pas noter tous les sites sur les mêmes critères

Répondre
t0ni0

Exalead et la version américaine de Bing utilisent également le clustering dans leurs classements si je ne m’abuse.

Répondre
Olivier Duffez

@t0ni0 : ça n’a rien à voir… le clustering dans les résultats consiste à regrouper plusieurs pages d’un même site, en mettant la seconde (et les éventuelles autres) en retrait vers la droite.

Répondre
haf

Je note une deuxième maj de la vitesse de mon site alors que mon site ne voit pas grand monde passé… Panda se reveille ? Deuxième mis à jour en moins de 7 jours pour un site a 15 visiteurs/jour c’est étrange

Répondre
Olivier Duffez

Désolé mais je ne vois pas le rapport avec mon article (et je ne pense pas qu’il y ait non plus de rapport avec Panda)…

Répondre
Emmanuel

>> « On sait que Google utilise ce genre d’algorithme depuis des années dans son programme AdSense. Il l’utilise peut-être aussi dans le cadre de son algorithme de recherche (référencement naturel) »

Oui les deux sont forcément liés Adsense est une déclinaison du moteur « naturel »… Adsense n’a fait que s’améliorer au fil des années, tout comme le moteur naturel.

Répondre
gurujeux

Donc en fait si on Adsense sur son site on peut sûrement voir comment fonctionne PHIL, suffirait de quelques manips… pourrait être intéressant!

Répondre
Marc.L

Avec un labo de tests exhaustifs, on pourrait facilement confirmer ou infirmer cette méthode.
Toutefois, il y a la logique d’analyse qui peut nous donner une piste …

On peu constater que Google est de plus en plus éclectique dans ses présentations, comme si il allait piocher ci et là pour présenter une page de résultat « complète et diversifiée ».

Ci et là est différent en fonction du type de requête, le regroupement est différent en fonction du sujet.

Donc, a priori, il y a bien un « classement thématique » dans la création de(des) index de Google.

L’analyse peut très bien aussi a « classer provisoirement » un site dans un « type » particulier (ex boutique marchande), le comparer, le noter … et se tromper … par exemple confondre un site « annuaire » avec des vignettes avec un site marchand si il y a trop de pubs par exemples et vignette (j’extrapole beaucoup …).

C’est aussi un excellent moyen d’éliminer des serps certaines catégories de sites malgré une très bonne optimisation et un grand nombre de baclinks …

Répondre