Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Les changements de l’algorithme Google en 2011

Suite à la pression issue des blogs et des forums, faisant état d’une dégradation de la qualité des résultats Google, le responsable de la lutte contre le spam Matt Cutts a publié un article dans blog officiel de Google. Il indique qu’après les changements d’algorithme de 2010 (MayDay), son équipe s’atèle à d’autres travaux visant à améliorer la pertinence des résultats. Il a clairement ciblé les sites de type « usine à contenu« , les assimilant donc à des spammeurs. Est-ce simplement un effet d’annonce pour tenter de calmer les critiques ? Voici un petit résumé de ce que j’ai pu observer depuis ~1 an…

Revenons un peu en arrière, avec quelques exemples de changements d’algo Google que j’ai relevés du printemps 2010 à janvier 2011…

Si vous cherchez un dossier à jour, consultez ma liste des algos en cours chez Google

MayDay et long tail

En 2010, Google a modifié 2 ou 3 fois son algorithme en ciblant spécialement les requêtes de type longue traîne. Tout le monde y fait référence sous l’appellation MayDay, inventée par les Américains début mai 2010. Pour ma part, j’avais déjà observé plusieurs phénomènes similaires en mars et avril 2010. Il y a eu également des bouleversements en octobre et je me demande s’il ne s’agit pas des derniers réglages par les ingénieurs de Google.

Les requêtes de type longue traîne (long tail) sont des requête « de niche », faites chacune par assez peu d’internautes, qui ont la particularité d’être très précises, très spécifiques. Les habitués au référencement naturel savent qu’il s’agit de requêtes très intéressantes car :

  • la concurrence est beaucoup moins forte sur ces requêtes que sur les top-requêtes, celles de la tête de la longue traîne
  • le taux de transformation est largement meilleur, car l’internaute a formulé une demande précise et arrive directement sur une page (a priori) pertinente
  • le volume total de trafic généré par l’ensemble de ces requêtes peut souvent dépasser celui des top-requêtes

Une partie des sites qui vivaient tranquillement en exploitant cette fameuse longue traine ont connu des baisses de trafic assez importantes (on parle de l’ordre de 30%) à partir de mai 2010. Cette chute de trafic est directement issue d’une modification de l’algorithme de Google, selon l’aveu même de Matt Cutts, le responsable du département de lutte contre le spam chez Google, un des très rares à s’exprimer publiquement. Pour une fois qu’il précise des détails sur un des 400 changements opérés chaque année par Google Search…

Vous trouverez mes explications sur ce changement dans mon article sur MayDay. Vous serez certainement intéressés également par mon tutoriel expliquant comment analyser la longue traîne dans Google Analytics. Enfin, je détaille dans ma formation une méthodologie bien rôdée d’optimisation de la longue traîne, qui fonctionne très bien avec l’algo actuel de Google.

Les fermes de contenus (usines à contenu)

Qu’est-ce qu’une ferme de contenus (content farm) ?

Tout d’abord, qu’appelle-t-on exactement une ferme à contenu (ou usine à contenu, content farm) ? Contrairement à ce que certains disent ou écrivent, cela n’a rien à voir avec les agrégateurs de contenus (qui republient des articles ou extraits déjà publiés ailleurs) ou les sites communautaires et/ou à contenu généré par les utilisateurs (UGC). Wikipédia ou les forums ne sont donc pas des fermes de contenu

Un site de type ferme à contenus fonctionne sur le principe du « contenu à la demande ». L’analogie avec la « vidéo à la demande » (VOD) est voulue, car c’est bien l’internaute qui est à la base de la demande de contenu. Voici donc ma proposition de définition de ferme à contenu :

Une ferme à contenu est un site qui publie un (très) grand nombre d’articles, sur des sujets précis ayant été préalablement identifiés comme des sujets recherchés par les internautes et donc susceptibles de générer du trafic (et donc des revenus).

En clair, la ligne éditoriale de ces sites est dictée par la demande (supposée) des consommateurs ! Autant dire qu’on peut fortement s’éloigner du journalisme.

Pour aller au bout des choses et pousser l’optimisation aussi loin que possible, les éditeurs de ces sites doivent bâtir un système constitué de plusieurs « briques » :

  • un algorithme qui détecte les demandes des internautes et produit en sortie une multitude de sujets d’articles à écrire. C’est en quelque sorte le royaume de Google Trends !
  • une plateforme permettant de trouver un rédacteur pour chaque article, le plus rapidement et le moins cher possible. Les contraintes imposées sont malheureusement susceptibles de contribuer à la création d’articles de faible qualité…
  • un CMS permettant de publier les articles de manière ultra optimisée pour le référencement, tout en monétisant le site en général par la publicité
  • des outils de web analytics pour mesurer les performances des articles publiés, aider l’algorithme

Exemples de fermes de contenus

Aux Etats-Unis, des énormes sites se sont lancés dans le créneau, dont demandmedia.com (qui possède plusieurs sites dont ehow.com, pluck.com, golflink.com, livestrong.com et mania.com), answers.com ou encore associatedcontent.com racheté par Yahoo en mai 2010.

En Europe, Wikio se lance sur ce créneau avec son site les-experts.com. Sur un modèle assez proche, on pourrait également citer CommentCaMarche, même s’il est plus proche du site communautaire à contenu généré par les utilisateurs.

Vous trouverez un début de liste des fermes de contenu dans le forum.

Google cherche à lutter contre les fermes de contenus

Techniques

Demand Media, la plus grosse ferme à contenus du monde ?

DemandMedia, le plus gros site du secteur, vient tout juste de boucler son introduction en bourse (le 26/01/2011 au NYSE), parvenant à une capitalisation actuelle de 1,7 milliard de dollars !

Ce succès résistera-t-il au temps et notamment aux tentatives de Google de limiter la visibilité de ce type de site ? Demand Media (DMD) doit déjà réagir aux plaintes de plagiat… Il faut dire que Demand Media sous-traite la rédaction des articles à des dizaines de milliers de sous-traitants très mal payés et pas forcément grands rédacteurs.

Matt Cutts

Matt Cutts

Dans son article du 21/01/2011, Matt Cutts a cherché à se justifier, face aux critiques sur les faiblesses de Google à endiguer le spam (lire par exemple celles de TechCrunch). Il a rappelé que 2 changements majeurs ont été effectués en 2010, visant les « sites de faible qualité » (vous apprécierez la précision…). C’était une manière de viser ces fameuses usines à contenu (il utilise ce terme), une sorte d’avertissement envoyé pour tenter de dissuader les gens d’en développer ?

Sur le fond, pourquoi Google devrait pénaliser ce genre de sites ? Une bonne raison serait de s’attaquer aux pages de très faible qualité, un des risques des usines à contenu qui produisent du texte au kilomètre. Mais un algorithme peut-il vraiment détecter la piètre qualité éditoriale ? Je n’ai pas l’impression que Google en soit là… Par ailleurs, je trouve que Google cherche à créer l’amalgame entre le spam et ce type de site (« fermes de contenus »). Et vous, qu’en pensez-vous ? On discute des fermes de contenu dans le forum.

Mise à jour du 23/05/2011 : depuis, Google a déployé une mise à jour importante de son algorithme, intitulée Google Panda.

Google cherche à lutter contre le plagiat et les contenus dupliqués

Encore plus récemment le 28/01/2011, Matt Cutts a annoncé qu’une nouvelle modification de l’algorithme venait d’être mise en ligne cette semaine. Elle vise à détecter le plagiat et la reprise de contenu, un fléau du web. Les premiers webmasters réagissent déjà, en tout cas sur google.com. Pour l’instant je n’ai pas pu confirmer si ce changement s’applique aussi à google.fr. Il faut dire que d’après Matt Cutts, seules 2% des requêtes sont concernées, et les changements seraient détectables dans moins de 0,5% des cas… On verra si ça réduit vraiment les problèmes liés au duplicate content externe.

Votre avis et vos réactions

J’attends votre avis, vos commentaires et retours d’expérience sur tout ça ! Si vous découvrez WebRankInfo par cet article, inscrivez-vous pour rester au courant des évolutions de l’algorithme de Google. Vous pouvez aussi me suivre par mon flux RSS, mon compte Twitter ou Facebook.

Cet article vous a-t-il plu ?

Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

23 commentaires

Philippe Hugon

Bravo pour ce post
Est-ce que tu penses que Google cherche a terme a réduire l’influence des RT de twitter et Like de Facebook.

Répondre
Olivier Duffez

Bonjour Philippe
Je n’ai pas très bien saisi pourquoi tu dis ça sur un article qui ne parle pas de Twitter et Facebook ? Mais je me dis que tu as peut-être une idée à explorer dans ce sens. J’ai plutôt l’impression que les RT et Like font déjà partie d’une série d’éléments des réseaux sociaux analysés par Google pour le référencement naturel.

Répondre
Pret immobilier

Si l’algo contre le duplicate agit vraiment, tous les grands médias relayant l’afp pourrait être frappé, non ? Ou bien GG va se dire, OK, c’est de l’afp moi je m’assois dessous.

Répondre
Olivier Duffez

Ceux qui publient le même article que la dépêche que leur fournit l’AFP pourraient avoir un problème (mais je pense qu’ils l’ont déjà eu).
Ceux qui écrivent un article basé sur la dépêche de l’AFP ne devraient pas avoir de problème.

Ne trouvez-vous pas que ça ressemble surtout à des effets d’annonce tout ça ? Enfin, je changerai de discours quand j’aurai lu des témoignages faisant état d’une forte chute de trafic…

Répondre
Philippe HUGON

Olivier,
En lisant ton article je me disais que les RT et ILike sont typiquement dans la même configuration que quelqu’un qui reprend tel que un article de l’AFP…
Très complet ton article sur réseaux sociaux et SEO

Répondre
besky

Bonjour,

Philippe, je pense qu’un paramètre vous échappe, car si je ne me trompe les contenus de twitter et de facebook que nous ajoutons afin d’améliorer notre référencement, sont souvent en « nofollow » et donc les robots de google ne risquent pas, à moins que je me trompe, de reconnaitre cela comme du duplicate content.

Merci pour cet article Olivier Duffez. Comment penses-tu (la magie d’internet, on tutoie tout le monde ^^) que l’algo de google va évoluer à l’avenir ? je sais que ce n’est pas une question facile, mais toi qui observe attentivement ces changements, peut-être as-tu une petite idée ?

Répondre
Olivier Duffez

besky, ce ne sont pas les contenus qui sont en nofollow mais les liens situés dans les contenus déposés sur les réseaux sociaux. Ils peuvent donc très bien être indexés, si bien que la question de la duplication se pose réellement.

Par ailleurs, même si les liens sont nofollow, ils peuvent jouer dans le référencement, cf. mon article qui explique les liens entre SEO et SMO.

Répondre
Pret immobilier

En terme d’observation sur Google Actus, je sais que le même article sans modifications se retrouvent quasiment partout (sur tous les grands organes de presse) et ils se font indexés quand même. Maintenant il est possible que l’algo de GG actus et différent de celui de base mais j’en doute… J’aurais tendance à observer une grande tolérance pour des sites déjà établis et une rigueur sur les nouveaux arrivants (quoiqu’on peut encore trouver des contre-exemples)…

Répondre
Franck | Papa Blogueur

C’est très intéressant, mais je me pose la question, si quelqu’un copie/colle le contenu d’un autre site, qui est pris en faute, le plagieur ou le site original (voire les 2) ?

Répondre
Olivier Duffez

@Franck : L’objectif de leur algo est bien entendu de ne faire apparaître dans les résultats que l’original et pas les copies

Répondre
Thalasso

Bonjour Olivier, bonjour tous les autres !

Google semble en effet « tendu »…; depuis que le moteur Blekko a montré à quel point était rapide la création de pages de type spam, et que cela a même été repris par de grands journaux (Washington Post, parait-il); les équipes anti-spam ont l’air un peu sur leur garde…

Ici, l’on ne parle que du contenu « moyen » voire « très médiocre », type les-experts.com en France (usine à contenu française. On pourrait rajouter aussi tout ce qui est le contenu franchement « mauvais » qui parfois ressort dans les résultats…

Pour compléter, comme tu l’as fait sur Twitter, le dernier article de Laurent Bourelly est tout indiqué…

Cédric

Répondre
fredo

bonjour , merci pour le billet . j’ espère que les annonces de Matt Cutts ne resteront pas sans suite . Le duplicate content est une vrai plaie et il serait tant que google arrive à le détecter et à mettre au bac à sable les méchants spammeurs .
Les sites qui reprennent les dépêches de l’ AFP méritent selon moi d’ être mal classés . Je ne sais pas ce que vous en pensez ?

Répondre
ybet

Jamais fais confiance à Matt Cut (en anglais coupé) mais ca commence à bien faire: depuis 3 ans, les modifs de l’algo casse plus de sites normaux que de sites « parasites ». A force de créer des règles anti-spams pour des minorités de sites, GG casse les bons, moins bons et amateurs (c’est plutôt les derniers qui m’inquiète).

En plus ca casse pas les bricoleurs.

Soit GG devient parano (genre dictate*ur du WEB qui veut être seul au monde et casse tout ce qu’il ne comprend pas – genre tout le monde essaye de m’attaquer pour passer sur mon moteur), soit l’équipe de GG chargé de l’algo (y compris les spécialistes du spams) prennent plus de temps à la piscine de la boîte que de réfléchir).

Personnellement, penche plus pour la première. Toutes les modifs depuis trois ans sont casser des sites standards pour casser (un petit peu) des espèces de webmasters bricoleurs (professionnels, j’espère qu’on est d’accord). GG est devenu une espèce de girouette: il est plus concentré sur les bénéfices de Adwords que sur les résultats et pour se reprendre, il essaye des techniques anti-spams …. J’ai déjà montré ses bons cotés et ses erreurs. Quand L’Jee se fait cassé son annuaire par un nouveau site (débutant) qui copie son annuaire et ses fiches … ca prouve bien que l’algo est nettement moins performant qu’il y a seulmement 3 ans.

Et Matt Cutt, c’est de la communication pour journalistes pas trop spécialisés (les actionnaires sans doute).

Répondre
philyd

@ybet

Enfin une personne lucide, ça fait plaisir ce commentaire qui synthétise bien les erreurs de Google depuis 3 ans. Le millefeuille d’algo de Google devient de moins en moins pertinent, voire ridicule.

@olivier

Très bon article, mais encore du pipo du coupé Matt. Vivement qu’il soit viré… Il doit trop fumer.

@TOUS

Google = abus de position dominante. Vivement que les Etats s’en rendent compte. Raz le bol de ce moteur quand je constate que des sites qui n’ont que 5 pages dans l’index primaire et qui sont en première page alors que j’en ai 1200 dans l’index. Où est la pertinence ?

Bref, lamentable autant que les réflexions de Cutt. En clair, sur leur dos, les webmasters n’ont pas le droit de gagner de l’argent. Google = Adwords, donc pognon à gogo. C’est clair depuis 3 à 4 ans.

Répondre
Yannick Comenge

On a ressenti le changement en 2010… J’ai connu des chefs de petites entreprises qui d’un seul coup on perdu de la visibilité et de la clientele. L’un d’entre eux a failli fermer boutique tout simplement parce que des algorythmes ont été modifiés… bravo à Google, heureusement qu’il y a Altavista pour éviter cela.

Moi meme j’avais 100000 occurences et je me suis retrouvé à 5000 « de faible qualité »… l’ennui c’est que je suis politisé et donc cela peut revenir à une forme de censure…

Le meilleur des mondes de Google c’est une vaste fumisterie de gamins implantés outre atlantique et qui en bon « anglosaxon » ne voient pas les dégats de leur petites modifications…

Résultat de ce genre de formatage algorythmique, c’est simple… on va juste se barrer de google, gmail et autres fouteses…

Répondre
Vendée

@philyd :
« Raz le bol de ce moteur quand je constate que des sites qui n’ont que 5 pages dans l’index primaire et qui sont en première page alors que j’en ai 1200 dans l’index. Où est la pertinence ? »

Peut-être que tes 1200 pages ne sont pas aussi pertinentes que les 5 pages du-dit site ?

Répondre
Gilles

Je constate que de plus en plus de pages faites de contenu(s) dupliqué(s) « remontent » dans les SERP à des positions proches des contenus originaux … voire devant ces contenus ! C’est souvent grâce à une accumulation de « petits emrunts » (quelques phrases), genre agrégateurs. J’ai du mal à comprendre qu’un moteur de la puissance de Google ne parvienne pas à faire une distinction claire et systématique. Seul le contenu original doit être récompensé en terme de positionnement par les moteurs.

Répondre
Pret immobilier

à Gilles, pour compléter ce que dit Gille, un contenu dupliqué bénéficiant plus de links peut être mieux positionné… Parfois on a l’impression que GG est bête, c’est la course aux liens !

Répondre
Change the world

Cela fait un moment qu’il est question de changer l’algo censé détecter les duplicate content si bien que la parade chez les black hat est déjà trouvé.

Répondre
Hernan

Bonjour,
La description que vous donnez correspondrait parfaitement par exemple à des sites d’informations people : « Une ferme à contenu est un site qui publie un (très) grand nombre d’articles, sur des sujets précis ayant été préalablement identifiés comme des sujets recherchés par les internautes et donc susceptibles de générer du trafic (et donc des revenus). »
Je ne suis pas spécialement intéressé par ce genre d’infos, mais ce n’est pas le cas de tous le monde (j’en veux pour preuve le chiffre des ventes de magasines du genre).
Alors de quel droit google qui est là pour classer la pertinence des sites, autrement dit la justesse de leurs propos, se permettrais de dé-classifier un site parce qu’il répond à une demande « populaire » ?

Selon moi Google s’il veux travailler sur les « ferme à contenus » devrait plutôt s’attaquer aux sites qui adaptent de manière dynamique leurs contenus aux requêtes des internautes, aux sites satellites qui pullulent (et polluent la toile) et aussi effectivement au contenu copié/collé.

@Gilles : « une accumulation de « petits emrunts » (quelques phrases) » c’est souvent ce qui compose un article : Des petits emprunts afin d’étayer un propos suivit éventuellement d’une analyse et d’une conclusion. Peut-on sanctionner ça ?

Répondre
Pret immobilier

Je crois qu’Olivier D. a répondu au dessus, si vous reprenez l’AFP et que vous réécrivez en mettant votre point de vue, ça fait un nouvel article.

Maintenant qu’un forum soit mieux référencé avec du contenu bidon, ça c’est un problème de pertinence…

Répondre
Dofollow

Le probleme majeur devient la production de contenue unique, beaucoup de site d’information ont beau tourné les information dans tous les sens ça reste des fait que l’ont ne peux réécrire à l’infini. Pareil pour les boutique de marque blanche qui vendent tous le même produit.

Répondre
MetLife

Réécrire oui, mais réécrire avec une autre façon de penser, peut être que l’information serait plus « digeste » ? En tout cas, même si l’information n’est pas différente mais si elle est « mieux » expliquée je pense qu’on apporte déjà de la valeur ajoutée.

Répondre