Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Google veut lutter contre le scraping et crée un formulaire de dénonciation

Ce n'est pas tout à fait comme le formulaire de spam report, mais ça y ressemble fort : Google vient de mettre en ligne un formulaire dédié à la dénonciation des scrapers (les sites qui pillent le contenu des autres pour l'afficher sur leur site).

Qu'est-ce que le scraping ?

Le (web) scraping est une pratique consistant à récupérer des contenus situés sur un autre site, en général de manière automatisée (par un script) et sans accord du site concerné. Il s'agit donc de vol et d'infraction au code de propriété intellectuelle (droit d'auteur).

Dans de nombreux cas, les contenus ainsi "pillés" sont reproduits sur le site du voleur, accompagnés de publicité.

En termes de référencement, la nuisance du duplicate content ainsi généré s'ajoute aux problèmes légaux évoqués ci-dessus.

Le formulaire de "scraping report"

Dans le cadre du développement d'un nouveau filtre (un des ~500 changements annuels de son algorithme) de lutte contre les sites de scraping, Google a mis en place ce formulaire Google Docs.

Google : Report scraper pages
Le formulaire de Google d'appel à la dénonciation de scrapers

Google demande des exemples de sites qui pratiquent le scraping. Ces exemples serviront à "tester et améliorer" les algorithmes de l'équipe qualité du moteur de recherche.

Rien ne dit que les sites dénoncés seront forcément pénalisés ou bannis de Google, mais il y a fort à parier qu'ils seront au moins surveillés de près.

Contrairement au formulaire classique de spam report, vous n'avez pas besoin d'être connecté à votre compte Google pour le remplir...

Votre avis sur la méthode Google de délation...

Qu'en pensez-vous ? Est-ce un bon moyen de lutter contre le scraping ? Allez-vous donner des exemples à Google ? On discute de ce formulaire anti-scrapping sur le forum.

Cet article vous a-t-il plu ?

Note : 3.0 (2 votes)
Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

22 commentaires

olem

@Pillou : Si on ne veut pas être "pillé" par Google, on interdit le passage de son robot avec un fichier robots.txt !

Répondre
olem

@Jazyx Non, Google ne lutte pas contre l'open source, mais pour un web utile. Google ne le fait pas par gentillesse, bien-sûr, mais par intérêt financier. Il n'empêche que leur but lorsqu'ils référencent des sites est de faire apparaître en premier les contenus les plus pertinents en fonction de la recherche de l'utilisateur ; c'est pourquoi l'utilisateur utilise toujours Google et c'est donc ce qui permet à Google ne mettre effectivement sa pub pour gagner des sous.

Du coup, le duplicate content est franchement mauvais pour l'utilisateur, qui fait une recherche, regarde le premier résultat ("intéressant, mais je vais regarder s'il y a mieux..."), le deuxième ("oh ! mais c'est le même texte que le premier lien !"), le troisième ("encore un site qui a pompé ! Ou qui s'est fait volé son contenu ! Zut !"). En tant qu'utilisateur, cela m'arrive souvent d'être énervé par un contenu dupliqué. Alors je ne suis pas sûr que Google soit vraiment intéressé par la légalité de la copie de contenu (est-ce que c'est du vol ? ou simplement l'utilisation d'une API ?). Google voit surtout qu'il y a du contenu dupliqué, et cherche à favoriser l'original et pénaliser les copies.

Alors oui, vous avez parfaitement le droit d'utiliser l'API de IMDP (qui soit dit en passant n'est pas open source...) mais si vous n'ajoutez aucune valeur ajoutée au contenu original d'IMDP, l'utilisateur n'aura aucune raison d'aller sur votre site, et il est donc normal que Google vous pénalise. Et si vous ajoutez de la "valeur ajoutée", j'ai confiance en Google pour qu'il sache faire la différence !

Répondre
Clém

@Référencement camping: 100% d'accord avec toi. Les gens ne voient que le profit à court terme. Google leur apporte beaucoup de trafic donc Google est super. Sauf que google est en train de tout manger ^^

Répondre
Jazyx

C'est pas très Web 2.0 / 2.5 tout ça. Quid des APIs par exemple ? Quid des sites qui offrent légalement leur contenu car open source http://www.imdb.com/interfaces

C'est ni du scrapping, ni du vol. Comment ils vont faire la différence entre un mec qui a utilisé l'API ou les fichiers fournis par IMDB, et un mec qui a volé le contenu ?

Google lutte contre l'open source ?

Répondre
DoubleV

les uns veulent gagner de l'argent sans rien faire en volant le travail des autres.
google s'y oppose pour une question déontologique d'une part et pour affirmer la pertinence des résultats de vos recherches qui se trouvent faussées.
Google n'est pas votre ennemi jusqu'à présent, ils veulent juste prospérer,comme toute entreprise privée (la précision est de taille). Le référencement des sites étant naturel, aidez Google, et les gentils seront gagnants, les voleurs perdants, c'est une morale de Western, mais c'est comme ça que la vie devrait marcher.

Répondre
Alerte au gogol

@David Enfin quelqu'un de censé !!!

Répondre
fredo

@olivier , je ne suis carrément pas pour la délation mais après m' être fait volé le contenu de l' un des mes sites je réagi positivement à cette initiative de google .

Répondre
Pillou

On peut aussi dénoncer Google ???
Google le premier pilleur de site mondial qui n'aime pas que l'on fasse comme lui. Le comble !!!

Répondre
lactom

moi je me met à la place de Google, je reçois une liste de sites qui font potentiellement du scrapping.

J'irai scroller ces sites et voir si leurs contenus sont duplicate d'un autre site en comparant les dates de publications de ces contenus.

Si oui, je le sanctionne $point_GG --;

Répondre
TeamKadeal

Reproduire du contenu d'un autre site est permis si l'on site la source. Il s'agit du droit de citation, et cela rentre parfaitement dans le cadre légal.
Reproduire systématiquement le contenu d'une base et sans cité la source est en revanche interdit.
Donc mollo sur "Il s'agit donc de vol et d'infraction au code de propriété intellectuelle (droit d'auteur)"

Répondre
Olivier Duffez

Quand on parle de scraping, c'est forcément récupérer + de contenu qu'une simple citation et les scrapers ne citent pas leurs sources

Répondre
horaire

Enfin c'est pas trop tôt, j'en avais un peu marre de faire des DMCA à Google.
A priori là si Google reçoit trop de plaintes de scrapping, il devrait faire le nécessaire et pénaliser le site en question, ce qu'il ne faisait pas avec le DMCA.

Répondre
Référencement camping

@Ben
Je n'ai jamais fait de parallèle entre les nazis et Google, soyons sérieux 2 secondes.
Avant de dénoncer les tricheurs et les sites pourris, il faut déjà faire en sorte (pour le délateur) que ses sites méritent leur place.

@4strO
C'est ce que je me tue à répéter, mais personne ne comprend !!!

On lit encore un peu partout des gens qui prennent les défense de Google et ne voient pas plus loin que le bout de leur nez, qui ne comprennent pas la stratégie que Google met en place depuis longtemps, progressivement :
- Produits du contenu unique de qualité
- Ne mets pas trop de pub et ne concurrences pas mes services (Google). Vis donc des miettes que je te laisse
- Moi Google scrape, agrège et pille (avis consommateurs, établissements touristiques, Google Adresses.......................) tout ce que je trouve et gagne le magot en plaçant mes annonces de pub ciblées (là, ils ne se limitent à 3 annonces, notamment sur leur moteur, bizarrement, ça ne leur pose pas de problèmes dans ce sens, y compris au dessus de la ligne de flottaison).
- Je profite de ma position dominante pour dégager les concurrents avec d'obscurs critères de qualité de contenu et de contenus dupliqués (que je duplique moi même dans mes propres services Google !).
- Je profite de ma position dominante pour analyser tous les secteurs rentables du Web avant de les investir. Je commence toujours à proposer un service gratuit à mon immense base, en agrégeant le contenu des autres, le temps de constituer mes propres bases de données, je lance coule les autres services et devient le leader en quelques semaines (comparateurs de shopping par exemple).

En clair, Google va tout bouffer, doucement mais surement : immobilier, tourisme, recherche (c'est fait), publicité, mobile (soft et hard), systèmes embarqués (voitures sans conducteur, vous croyez que c'est améliorer le sort de l'humanité ?).............................

Plus Google lance de services, plus ils ont une dimension géolocalisée, plus ils amassent de données, plus ils deviennent puissants et rendent les autres dépendants.

Personne ne les voit faire ? on lit très peu de billets clairvoyants à ce sujet et tout le monde gobe leur communication alambiquée sans sourciller !!

Le lancement de panda, une veille de WE de 15 août, alors que tout le monde est en vacances, avec dans le même temps une modification de la gestion des sessions GG analytics, personne ne trouve que ça ressemble à la stratégie des politiques pour brouiller les pistes et faire avaler des réformes à la con pendant que personne n'est là pour les contester ?

Un peut de clairvoyance enfin, arrêtez de gober toutes les conneries que vous raconte Google et faites preuve d'esprit critique.

Vous vous pensez à l'abri sur votre secteur ? personne ne l'est vraiment, croyez moi.

Vous n'osez pas critiquer la stratégie de Google de peur de représailles pour vos sites dans les SERP ?
Alors au lieu de justifier leurs choix et d'emboucaner les autres, vous pourriez tout simplement garder le silence non ?
Personne ne vous le reprochera...

Bien entendu, tout le monde a le droit de s'exprimer, mais pu..., faites preuve d'esprit critique et essayez d'avoir une vision globale de leur "projet de société" !

Répondre
4strO

Comment fait google pour fabriquer son index et alimenter son cache ?
Il scrape le net avec son googlebot.

Répondre
Ben

Je crois que vous oubliez le vrai sens de « délation » ;-) On ne parle pas d'envoyer un groupe de nazis déporter des webmestres dans des camps de travail, on ne parle même pas de dénoncer des concurrents dans le but de faire un gain quelconque, on parle de reporter des tricheurs et des voleurs qui font des sites pourris afin d'améliorer la qualité du web. C'est plus un acte de civisme qu'une délation :)

Répondre
David

Je dois avouer que j'ai du mal à vous comprendre :

- Google (et le web en général) est face à un problème : le scrapping. Leur algorithme actuel est peu efficace.
- Qu'est ce qu'ils font pour y remédier? Ils veulent en développer un qui sera plus malin et pourra les détecter.
- Pour que ce développement se fasse correctement,ils ont besoin d'une base de scrapers afin de tester l'algo qu'ils développent.

Je ne vois vraiment pas le problème.

C'est comme si vous deviez mettre au point un truc qui fait fuir les cafards. Vous demandez les coins où en trouve, histoire de ne pas travailler dans le vide, et là on crie "houlala ils sont impuissants, il faut leur montrer ou on en trouve".

Après je suis peut être naïf : ils sont peut être effectivement impuissants et vont simplement utiliser ce que l'on envoie pour créer une sorte de liste noire... mais jusqu'à preuve du contraire, c'est un procès d'intention!

Répondre
Jeux Gratuits

@référencement camping :
Google ou Bing... Il me semble que microsoft a déjà montré de quoi ils étaient capable lorsqu'ils ont un peu de monopole, je me tournerais plus facilement vers blekko un moteur de recherche loin d'être aussi mauvais qu'il n'a pu l'être au tout début, il est même possible via son interface de comparer ses résultats à ceux de Bing et Google en ajoutant "/monte" dans la requête !

voir à cette adresse :
http://blekko.com/ws/referencement+camping+/monte

PS: il m'a l'air plus transparent sur les backlink ;)

Répondre
Référencement camping

Connaissant Google, de plus en plus gourmand et de plus en plus critiqué, je pense sincèrement que ça n'augure rien de bon.

Personnellement, j’interprète clairement cette news comme un signal de leur impuissance à lutter seuls contre le SPAM. Ils ont atteint certaines limites actuelles avec leur algo et sous couvert d'une communication léchée, ils cherchent à s'appuyer sur la délation des internautes.
Exactement comme avec Panda quand sous couvert de qualité des SERP ils dégagent leurs concurrents pour placer leurs services (GG adresses, GG shopping...).

J'aime de moins en moins Google pour être franc. Ils ont de superbes produits, mais ils empruntent de plus en plus des chemins qui me déplaisent tout particulièrement. Je teste d'ailleurs Bing au quotidien en ce moment pour voir de quelle manière je peux utiliser leurs services (search, maps, webmaster tools, liens sponsorisés...) et être de moins en moins dépendant de Google.

Répondre
David

@olivier :
Le screenshoot stipule "to test and improve our algorithms". Il semble qu'il s'agit juste pour google de tester leur nouvel algorithme antiscrapping. Il est tout à fait envisageable qu'ils en aient référencés un certain nombre, mais qu'ils veulent peaufiner l'algo en le testant avec une plus grande base possible (avant de mettre effectivement en production).

Répondre
Olivier Duffez

Oui David, c'est à peu près ce que j'ai écrit. Difficile de savoir ce que Google fera vraiment de la liste des sites dénoncés par ce formulaire.

Répondre
Olivier

C'est surtout la preuve que Google ne comprend rien de la qualité des textes qu'il indexe et qu'il est très limité techniquement de ce point de vue (sémantique d'une manière plus large).
J'aime pas les appels à la délation, pourtant je ne scrape pas, ça va encore déraper.

L'appel à la délation est toujours un aveu d'impuissance, quoi qu'en dise Google.

Répondre