Nouveau spam report "spécial scraper"

WRInaute passionné
Il est désormais possible de reporter à Google les pages usant de scraping...

Google veut lutter contre le scraping et crée un formulaire de dénonciation​

Ce n'est pas tout à fait comme le formulaire de spam report, mais ça y ressemble fort : Google vient de mettre en ligne un formulaire dédié à la dénonciation des scrapers (les sites qui pillent le contenu des autres pour l'afficher sur leur site).

Qu'est-ce que le scraping ?​

Le (web) scraping est une pratique consistant à récupérer des contenus situés sur un autre site, en général de manière automatisée (par un script) et sans accord du site concerné. Il s'agit donc de vol et d'infraction au code de propriété intellectuelle (droit d'auteur).

Dans de nombreux cas, les contenus ainsi "pillés" sont reproduits sur le site du voleur, accompagnés de publicité.

En termes de référencement, la nuisance du duplicate content ainsi généré s'ajoute aux problèmes légaux évoqués ci-dessus.

Le formulaire de "scraping report"​

Dans le cadre du développement d'un nouveau filtre (un des ~500 changements annuels de son algorithme) de lutte contre les sites de scraping, Google a mis en place ce formulaire Google Docs.

Google : Report scraper pages


Le formulaire de Google d'appel à la dénonciation de scrapers
Google demande des exemples de sites qui pratiquent le scraping. Ces exemples serviront à "tester et améliorer" les algorithmes de l'équipe qualité du moteur de recherche.

Rien ne dit que les sites dénoncés seront forcément pénalisés ou bannis de Google, mais il y a fort à parier qu'ils seront au moins surveillés de près.

Contrairement au formulaire classique de spam report, vous n'avez pas besoin d'être connecté à votre compte Google pour le remplir...

Votre avis sur la méthode Google de délation...​

Qu'en pensez-vous ? Est-ce un bon moyen de lutter contre le scraping ? Allez-vous donner des exemples à Google ?
 
WRInaute impliqué
Ou la, va falloir changer de sources de contenus, google veut mettre la fin au preg_match_all? ^^
 
WRInaute passionné
Google a dit:
Google is testing algorithmic changes for scraper sites (especially blog scrapers). We are asking for examples, and may use data you submit to test and improve our algorithms.
Si j'ai bien compris ils demandent juste des exemples pour tester et améliorer leur algo. Vont-il en tenir compte, c'est pas sur.
 
WRInaute passionné
tout à fait Forty, il est bien précisé qu'il ne s'agit pas d'un réel "spam report" mais d'un recueil de données visant à améliorer les algos. pas impossible néanmoins qu'une fois les données dépouillées et analysées, la liste atterrisse quelque part sur un bureau à Dublin...
 
WRInaute accro
Ou que chaque cas étant pris en compte dans l'algo, tous les sites ainsi signalés finissent par passer a la trappe par le simple effet de l'algo ...
 
WRInaute accro
Zecat a dit:
Ou que chaque cas étant pris en compte dans l'algo, tous les sites ainsi signalés finissent par passer a la trappe par le simple effet de l'algo ...
fortement probable : on décortique un tel site, on modifie l'algo et hop, 50 sites passent à la trappe car procédant de la même façon :evil: cool, un peu de ménage de fait.
Pour les sites qui récupèrent les flux rss d'autres sites et les agrègent pour en faire leur "propre" contenu, il y a une bonne solution pour s'en débarrasser : on crée du contenu spécial pour ces sites là, rien que pour eux (basé sur l'ip), avec, évidemment, aucun lien vers notre site. Ce contenu spécial doit contenir tout ce que gg n'apprécie pas dans un site généraliste (casino, x, etc...) et on attend que le site passe à la trappe :mrgreen: :evil:
 
WRInaute passionné
Je ne sais pas si c'est à cause de Panda mais je vois de plus en plus de proxy apparaitre dans mes vérifications de duplicate content. Le dernier en date c'est celui là -http://kutchix.appspot.com/annuaire.indexweb.info/57245/ski-randonnee-trekking-topski-evasion.html que j'ai retrouvé bien classé à la place visiblement de l'original.
La mise en place de ce formulaire serait-il un aveux de faiblesse de Panda ? J'en suis de plus en plus convaincu.
 
Discussions similaires
Haut