Annonces Google

Vous êtes ici : Dossiers référencement > R&D référencement, réseaux sociaux

L'algorithme PHIL de Google, pour classer les sites ou pages en clusters

Par , le 12 juillet 2011

Il est probable que Panda utilise des algorithmes de classification, pour juger les sites en fonction de leur typologie (et ne pas appliquer les mêmes critères à tous les sites). Peut-être que parmi ces algorithmes figure PHIL (Probabilistic Hierarchical Inferential Learner).

C'est bien entendu  Bill Slawski qui a déniché l'information, au cours de sa lecture du livre In the Plex. PHIL est un système de classification qui catégorise des documents ou des sites web dans des clusters. Certains clusters sont qualifiés de sémantiques car ils sont construits à partir d'algorithmes de type co-occurrence de termes.

Illustration algorithme Phil Google

Interface d'un outil basé sur PHIL (Image seobythesea.com)

PHIL permet :

  • de comparer des concepts figurant dans des requêtes, des documents ou des publicités
  • de comparer des concepts entre 2 documents afin d'en mesurer une distance qui permettra de regrouper des documents dans des clusters
  • dans les cas de requêtes ambiguës, de présenter différents résultats selon leur signification
  • de classifier des textes selon les concepts abordés
  • de deviner si plusieurs mots sont des variantes du même mot avec des fautes d'orthographe, en fonction des concepts induits
On sait que Google utilise ce genre d'algorithme depuis des années dans son programme AdSense. Il l'utilise peut-être aussi dans le cadre de son algorithme de recherche (référencement naturel). C'est à rapprocher d'un autre système assez proche, l'indexation basée sur les phrases (plutôt que les mots simples). Il est possible que Google exploite une taxonomie du genre de celle créée par PHIL, pour comparer la qualité des sites ou des pages d'un même cluster (par exemple abordant les mêmes thématiques), plutôt que de tout mélanger. Par exemple, si on relit les conseils fournis par Amit Singhal au sujet de l'algo Panda, on se rend vite compte que les conseils ne s'appliquent pas à tous les types de sites.
Je vous conseille de lire les explications plus détaillées de Bill, ce sera mieux que mon petit résumé...
Qu'en pensez-vous ?
Cet article vous a-t-il plu ?
Cliquez pour voter !

A propos de l'auteur : Olivier Duffez Olivier Duffez sur Google+ Olivier Duffez sur Twitter Olivier Duffez sur Facebook Olivier Duffez sur Pinterest Olivier Duffez sur LinkedIn

Consultant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC,...). Il édite le site WebRankInfo qu'il a créé en 2002, devenu la + grande communauté francophone sur le SEO (+300.000 membres, 1,5 million de posts). Il est aussi cofondateur de Ranking Metrics, leader des formations webmarketing en France (SEO, AdWords, Analytics, réseaux sociaux) et éditrice de la plateforme MyRankingMetrics (crawler et audit SEO en ligne).

Article (PHIL, un algorithme de classification de Google) publié par WebRankInfo dans la rubrique R&D référencement, réseaux sociaux. Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.

9 commentaires

  • haf a dit le

    Moi j'ai remarqué un changement dans le webmastertool ma liste de liens pointant vers mon site a été sévèrement revue à la baisse : 5 liens externes... Maj en cours pour un lancement du Panda le 14 juillet en France? Le cadeau de google pour la fête nationale?

  • apprentissage a dit le

    voila un article bien technique :) finalement ça semble logique tout de même . On ne peut pas noter tous les sites sur les mêmes critères

  • t0ni0 a dit le

    Exalead et la version américaine de Bing utilisent également le clustering dans leurs classements si je ne m'abuse.

  • Olivier Duffez a dit le

    @t0ni0 : ça n'a rien à voir... le clustering dans les résultats consiste à regrouper plusieurs pages d'un même site, en mettant la seconde (et les éventuelles autres) en retrait vers la droite.

  • haf a dit le

    Je note une deuxième maj de la vitesse de mon site alors que mon site ne voit pas grand monde passé... Panda se reveille ? Deuxième mis à jour en moins de 7 jours pour un site a 15 visiteurs/jour c'est étrange

  • Olivier Duffez a dit le

    Désolé mais je ne vois pas le rapport avec mon article (et je ne pense pas qu'il y ait non plus de rapport avec Panda)...

  • Emmanuel a dit le

    >> "On sait que Google utilise ce genre d'algorithme depuis des années dans son programme AdSense. Il l'utilise peut-être aussi dans le cadre de son algorithme de recherche (référencement naturel)"

    Oui les deux sont forcément liés Adsense est une déclinaison du moteur "naturel"... Adsense n'a fait que s'améliorer au fil des années, tout comme le moteur naturel.

  • gurujeux a dit le

    Donc en fait si on Adsense sur son site on peut sûrement voir comment fonctionne PHIL, suffirait de quelques manips... pourrait être intéressant!

  • Marc.L a dit le

    Avec un labo de tests exhaustifs, on pourrait facilement confirmer ou infirmer cette méthode.
    Toutefois, il y a la logique d'analyse qui peut nous donner une piste ...

    On peu constater que Google est de plus en plus éclectique dans ses présentations, comme si il allait piocher ci et là pour présenter une page de résultat "complète et diversifiée".

    Ci et là est différent en fonction du type de requête, le regroupement est différent en fonction du sujet.

    Donc, a priori, il y a bien un "classement thématique" dans la création de(des) index de Google.

    L'analyse peut très bien aussi a "classer provisoirement" un site dans un "type" particulier (ex boutique marchande), le comparer, le noter ... et se tromper ... par exemple confondre un site "annuaire" avec des vignettes avec un site marchand si il y a trop de pubs par exemples et vignette (j'extrapole beaucoup ...).

    C'est aussi un excellent moyen d'éliminer des serps certaines catégories de sites malgré une très bonne optimisation et un grand nombre de baclinks ...

Postez un commentaire !

Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.

En postant un commentaire, vous acceptez les CGU du site WebRankInfo.

Catégories des dossiers

Consultez les dossiers par thématiques :

Annonces Google

Formation référencement et webmarketing

Venez chez Ranking Metrics vous former au référencement, à Google AdWords et Analytics ainsi qu'aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (Dossier possible OPCA...).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation).

Hébergement web

Hébergement web mutualisé et dédié

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit by Nerim, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo.

A partir de 3€ HT/mois.

Annonces Google


38 Partages