Vous êtes ici : Dossiers référencement > Google Search

Membre WebRankInfo ?

S'inscrire Aide

Google veut lutter contre le scraping et crée un formulaire de dénonciation

Par , Lundi 29 août 2011

Ce n'est pas tout à fait comme le formulaire de spam report, mais ça y ressemble fort : Google vient de mettre en ligne un formulaire dédié à la dénonciation des scrapers (les sites qui pillent le contenu des autres pour l'afficher sur leur site).

Qu'est-ce que le scraping ?

Le (web) scraping est une pratique consistant à récupérer des contenus situés sur un autre site, en général de manière automatisée (par un script) et sans accord du site concerné. Il s'agit donc de vol et d'infraction au code de propriété intellectuelle (droit d'auteur).

Dans de nombreux cas, les contenus ainsi "pillés" sont reproduits sur le site du voleur, accompagnés de publicité.

En termes de référencement, la nuisance du duplicate content ainsi généré s'ajoute aux problèmes légaux évoqués ci-dessus.

Le formulaire de "scraping report"

Dans le cadre du développement d'un nouveau filtre (un des ~500 changements annuels de son algorithme) de lutte contre les sites de scraping, Google a mis en place ce formulaire Google Docs.

Google : Report scraper pages

Le formulaire de Google d'appel à la dénonciation de scrapers

Google demande des exemples de sites qui pratiquent le scraping. Ces exemples serviront à "tester et améliorer" les algorithmes de l'équipe qualité du moteur de recherche.

Rien ne dit que les sites dénoncés seront forcément pénalisés ou bannis de Google, mais il y a fort à parier qu'ils seront au moins surveillés de près.

Contrairement au formulaire classique de spam report, vous n'avez pas besoin d'être connecté à votre compte Google pour le remplir...

Votre avis sur la méthode Google de délation...

Qu'en pensez-vous ? Est-ce un bon moyen de lutter contre le scraping ? Allez-vous donner des exemples à Google ? On discute de ce formulaire anti-scrapping sur le forum.

A propos de l'auteur : Olivier Duffez Olivier Duffez sur Google+ Olivier Duffez sur Twitter Olivier Duffez sur Facebook Olivier Duffez sur Pinterest Olivier Duffez sur LinkedIn

Consultant en référencement, Olivier Duffez a travaillé pour les plus grands sites (Doctissimo, FNAC, RueDuCommerce...). Il édite le site WebRankInfo qu'il a créé en 2002, devenu la + grande communauté francophone sur le référencement (270.000 membres, 1,4 million de posts). Il a également créé la société Ranking Metrics, leader des formations emarketing en France (SEO, AdWords, Analytics, réseaux sociaux).

Vous avez aimé cet article ? Partagez-le !

Vous aimez WebRankInfo ? Suivez-nous !

Si vous souhaitez publier un extrait de cet article sur votre site, assurez-vous de respecter les conditions générales d'utilisation de WebRankInfo.

Vous devriez lire aussi :

22 commentaires

  1. Olivier a dit le

    C'est surtout la preuve que Google ne comprend rien de la qualité des textes qu'il indexe et qu'il est très limité techniquement de ce point de vue (sémantique d'une manière plus large).
    J'aime pas les appels à la délation, pourtant je ne scrape pas, ça va encore déraper.

    L'appel à la délation est toujours un aveu d'impuissance, quoi qu'en dise Google.

  2. David a dit le

    @olivier :
    Le screenshoot stipule "to test and improve our algorithms". Il semble qu'il s'agit juste pour google de tester leur nouvel algorithme antiscrapping. Il est tout à fait envisageable qu'ils en aient référencés un certain nombre, mais qu'ils veulent peaufiner l'algo en le testant avec une plus grande base possible (avant de mettre effectivement en production).

  3. Olivier Duffez a dit le

    Oui David, c'est à peu près ce que j'ai écrit. Difficile de savoir ce que Google fera vraiment de la liste des sites dénoncés par ce formulaire.

  4. Référencement camping a dit le

    Connaissant Google, de plus en plus gourmand et de plus en plus critiqué, je pense sincèrement que ça n'augure rien de bon.

    Personnellement, j’interprète clairement cette news comme un signal de leur impuissance à lutter seuls contre le SPAM. Ils ont atteint certaines limites actuelles avec leur algo et sous couvert d'une communication léchée, ils cherchent à s'appuyer sur la délation des internautes.
    Exactement comme avec Panda quand sous couvert de qualité des SERP ils dégagent leurs concurrents pour placer leurs services (GG adresses, GG shopping...).

    J'aime de moins en moins Google pour être franc. Ils ont de superbes produits, mais ils empruntent de plus en plus des chemins qui me déplaisent tout particulièrement. Je teste d'ailleurs Bing au quotidien en ce moment pour voir de quelle manière je peux utiliser leurs services (search, maps, webmaster tools, liens sponsorisés...) et être de moins en moins dépendant de Google.

  5. Jeux Gratuits a dit le

    @référencement camping :
    Google ou Bing... Il me semble que microsoft a déjà montré de quoi ils étaient capable lorsqu'ils ont un peu de monopole, je me tournerais plus facilement vers blekko un moteur de recherche loin d'être aussi mauvais qu'il n'a pu l'être au tout début, il est même possible via son interface de comparer ses résultats à ceux de Bing et Google en ajoutant "/monte" dans la requête !

    voir à cette adresse :
    http://blekko.com/ws/referencement+camping+/monte

    PS: il m'a l'air plus transparent sur les backlink ;)

  6. David a dit le

    Je dois avouer que j'ai du mal à vous comprendre :

    - Google (et le web en général) est face à un problème : le scrapping. Leur algorithme actuel est peu efficace.
    - Qu'est ce qu'ils font pour y remédier? Ils veulent en développer un qui sera plus malin et pourra les détecter.
    - Pour que ce développement se fasse correctement,ils ont besoin d'une base de scrapers afin de tester l'algo qu'ils développent.

    Je ne vois vraiment pas le problème.

    C'est comme si vous deviez mettre au point un truc qui fait fuir les cafards. Vous demandez les coins où en trouve, histoire de ne pas travailler dans le vide, et là on crie "houlala ils sont impuissants, il faut leur montrer ou on en trouve".

    Après je suis peut être naïf : ils sont peut être effectivement impuissants et vont simplement utiliser ce que l'on envoie pour créer une sorte de liste noire... mais jusqu'à preuve du contraire, c'est un procès d'intention!

  7. Ben a dit le

    Je crois que vous oubliez le vrai sens de « délation » ;-) On ne parle pas d'envoyer un groupe de nazis déporter des webmestres dans des camps de travail, on ne parle même pas de dénoncer des concurrents dans le but de faire un gain quelconque, on parle de reporter des tricheurs et des voleurs qui font des sites pourris afin d'améliorer la qualité du web. C'est plus un acte de civisme qu'une délation :)

  8. 4strO a dit le

    Comment fait google pour fabriquer son index et alimenter son cache ?
    Il scrape le net avec son googlebot.

  9. Référencement camping a dit le

    @Ben
    Je n'ai jamais fait de parallèle entre les nazis et Google, soyons sérieux 2 secondes.
    Avant de dénoncer les tricheurs et les sites pourris, il faut déjà faire en sorte (pour le délateur) que ses sites méritent leur place.

    @4strO
    C'est ce que je me tue à répéter, mais personne ne comprend !!!

    On lit encore un peu partout des gens qui prennent les défense de Google et ne voient pas plus loin que le bout de leur nez, qui ne comprennent pas la stratégie que Google met en place depuis longtemps, progressivement :
    - Produits du contenu unique de qualité
    - Ne mets pas trop de pub et ne concurrences pas mes services (Google). Vis donc des miettes que je te laisse
    - Moi Google scrape, agrège et pille (avis consommateurs, établissements touristiques, Google Adresses.......................) tout ce que je trouve et gagne le magot en plaçant mes annonces de pub ciblées (là, ils ne se limitent à 3 annonces, notamment sur leur moteur, bizarrement, ça ne leur pose pas de problèmes dans ce sens, y compris au dessus de la ligne de flottaison).
    - Je profite de ma position dominante pour dégager les concurrents avec d'obscurs critères de qualité de contenu et de contenus dupliqués (que je duplique moi même dans mes propres services Google !).
    - Je profite de ma position dominante pour analyser tous les secteurs rentables du Web avant de les investir. Je commence toujours à proposer un service gratuit à mon immense base, en agrégeant le contenu des autres, le temps de constituer mes propres bases de données, je lance coule les autres services et devient le leader en quelques semaines (comparateurs de shopping par exemple).

    En clair, Google va tout bouffer, doucement mais surement : immobilier, tourisme, recherche (c'est fait), publicité, mobile (soft et hard), systèmes embarqués (voitures sans conducteur, vous croyez que c'est améliorer le sort de l'humanité ?).............................

    Plus Google lance de services, plus ils ont une dimension géolocalisée, plus ils amassent de données, plus ils deviennent puissants et rendent les autres dépendants.

    Personne ne les voit faire ? on lit très peu de billets clairvoyants à ce sujet et tout le monde gobe leur communication alambiquée sans sourciller !!

    Le lancement de panda, une veille de WE de 15 août, alors que tout le monde est en vacances, avec dans le même temps une modification de la gestion des sessions GG analytics, personne ne trouve que ça ressemble à la stratégie des politiques pour brouiller les pistes et faire avaler des réformes à la con pendant que personne n'est là pour les contester ?

    Un peut de clairvoyance enfin, arrêtez de gober toutes les conneries que vous raconte Google et faites preuve d'esprit critique.

    Vous vous pensez à l'abri sur votre secteur ? personne ne l'est vraiment, croyez moi.

    Vous n'osez pas critiquer la stratégie de Google de peur de représailles pour vos sites dans les SERP ?
    Alors au lieu de justifier leurs choix et d'emboucaner les autres, vous pourriez tout simplement garder le silence non ?
    Personne ne vous le reprochera...

    Bien entendu, tout le monde a le droit de s'exprimer, mais pu..., faites preuve d'esprit critique et essayez d'avoir une vision globale de leur "projet de société" !

  10. Ben a dit le

    « Je n'ai jamais fait de parallèle entre les nazis et Google »

    http://fr.wikipedia.org/wiki/D%C3%A9lation

  11. horaire a dit le

    Enfin c'est pas trop tôt, j'en avais un peu marre de faire des DMCA à Google.
    A priori là si Google reçoit trop de plaintes de scrapping, il devrait faire le nécessaire et pénaliser le site en question, ce qu'il ne faisait pas avec le DMCA.

  12. TeamKadeal a dit le

    Reproduire du contenu d'un autre site est permis si l'on site la source. Il s'agit du droit de citation, et cela rentre parfaitement dans le cadre légal.
    Reproduire systématiquement le contenu d'une base et sans cité la source est en revanche interdit.
    Donc mollo sur "Il s'agit donc de vol et d'infraction au code de propriété intellectuelle (droit d'auteur)"

  13. lactom a dit le

    moi je me met à la place de Google, je reçois une liste de sites qui font potentiellement du scrapping.

    J'irai scroller ces sites et voir si leurs contenus sont duplicate d'un autre site en comparant les dates de publications de ces contenus.

    Si oui, je le sanctionne $point_GG --;

  14. Olivier Duffez a dit le

    Quand on parle de scraping, c'est forcément récupérer + de contenu qu'une simple citation et les scrapers ne citent pas leurs sources

  15. Pillou a dit le

    On peut aussi dénoncer Google ???
    Google le premier pilleur de site mondial qui n'aime pas que l'on fasse comme lui. Le comble !!!

  16. fredo a dit le

    @olivier , je ne suis carrément pas pour la délation mais après m' être fait volé le contenu de l' un des mes sites je réagi positivement à cette initiative de google .

  17. Alerte au gogol a dit le

    @David Enfin quelqu'un de censé !!!

  18. DoubleV a dit le

    les uns veulent gagner de l'argent sans rien faire en volant le travail des autres.
    google s'y oppose pour une question déontologique d'une part et pour affirmer la pertinence des résultats de vos recherches qui se trouvent faussées.
    Google n'est pas votre ennemi jusqu'à présent, ils veulent juste prospérer,comme toute entreprise privée (la précision est de taille). Le référencement des sites étant naturel, aidez Google, et les gentils seront gagnants, les voleurs perdants, c'est une morale de Western, mais c'est comme ça que la vie devrait marcher.

  19. Jazyx a dit le

    C'est pas très Web 2.0 / 2.5 tout ça. Quid des APIs par exemple ? Quid des sites qui offrent légalement leur contenu car open source http://www.imdb.com/interfaces

    C'est ni du scrapping, ni du vol. Comment ils vont faire la différence entre un mec qui a utilisé l'API ou les fichiers fournis par IMDB, et un mec qui a volé le contenu ?

    Google lutte contre l'open source ?

  20. Clém a dit le

    @Référencement camping: 100% d'accord avec toi. Les gens ne voient que le profit à court terme. Google leur apporte beaucoup de trafic donc Google est super. Sauf que google est en train de tout manger ^^

  21. olem a dit le

    @Jazyx Non, Google ne lutte pas contre l'open source, mais pour un web utile. Google ne le fait pas par gentillesse, bien-sûr, mais par intérêt financier. Il n'empêche que leur but lorsqu'ils référencent des sites est de faire apparaître en premier les contenus les plus pertinents en fonction de la recherche de l'utilisateur ; c'est pourquoi l'utilisateur utilise toujours Google et c'est donc ce qui permet à Google ne mettre effectivement sa pub pour gagner des sous.

    Du coup, le duplicate content est franchement mauvais pour l'utilisateur, qui fait une recherche, regarde le premier résultat ("intéressant, mais je vais regarder s'il y a mieux..."), le deuxième ("oh ! mais c'est le même texte que le premier lien !"), le troisième ("encore un site qui a pompé ! Ou qui s'est fait volé son contenu ! Zut !"). En tant qu'utilisateur, cela m'arrive souvent d'être énervé par un contenu dupliqué. Alors je ne suis pas sûr que Google soit vraiment intéressé par la légalité de la copie de contenu (est-ce que c'est du vol ? ou simplement l'utilisation d'une API ?). Google voit surtout qu'il y a du contenu dupliqué, et cherche à favoriser l'original et pénaliser les copies.

    Alors oui, vous avez parfaitement le droit d'utiliser l'API de IMDP (qui soit dit en passant n'est pas open source...) mais si vous n'ajoutez aucune valeur ajoutée au contenu original d'IMDP, l'utilisateur n'aura aucune raison d'aller sur votre site, et il est donc normal que Google vous pénalise. Et si vous ajoutez de la "valeur ajoutée", j'ai confiance en Google pour qu'il sache faire la différence !

  22. olem a dit le

    @Pillou : Si on ne veut pas être "pillé" par Google, on interdit le passage de son robot avec un fichier robots.txt !

Postez un commentaire !

Les champs marqués du signe * sont obligatoires. L'adresse email ne sera pas affichée.

En postant un commentaire, vous acceptez les CGU du site WebRankInfo.

Cherchez dans tous les dossiers

Cherchez par mots-clés dans ~2000 articles :

Formation référencement et webmarketing

Venez chez Ranking Metrics vous former au référencement, à Google Analytics et aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (financement possible par OPCA, DIF...).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation).

Hébergement web

Hébergement web mutualisé et dédié

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit by Nerim, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo.

A partir de 3€ HT/mois.