Google pas toujours très bon dans la lutte contre le piratage/spam ?

  • Auteur de la discussion Auteur de la discussion Vinyl
  • Date de début Date de début
WRInaute discret
Bonjour,

Ça fait peut-être longtemps que ça existe mais je n’avais jamais remarqué que Google indique une possibilité de piratage dans les résultats. J’ai trouvé ce site car il utilise mes images avec du hotlinking (sans doute suite au piratage).

google-webmaster.png


Ce que je ne comprends pas bien :

- Ce site utilise mes images en les chargeant depuis mon serveur
Il se positionne devant moi dans Google image (les petites vignettes en haut de page des résultats Web )

- Si on clique sur la vignette, on est envoyé sur ce site alors qu’il contient une image chargée depuis mon site et des redirections vers des pages de spams.

- Le site a l’air piraté et ne contient que des pages qui n’ont aucun rapport, bourré de mots clefs rempli par de robots et Google le positionne en 1er.

A mon avis, il y a très clairement une amélioration à faire du côté de Google pour lutter contre ce type de spam.
 
WRInaute impliqué
j'ai fait une étude sur ce sujet pendant un mois que je complète au cours de mes navigations, c'est un déluge ! alors en automatisé ! ce n'est plus une amélioration à faire du côté de Google, c'est clairement une révision de ses filtres
 
WRInaute accro
Vinyl a dit:
- Ce site utilise mes images en les chargeant depuis mon serveur
Il se positionne devant moi dans Google image (les petites vignettes en haut de page des résultats Web )

Il me semble que GG se contrefiche du lieu où est enregistrée l'image. C’est bien pour cette raison que tu peux les charger depuis un CDN ou un quelconque serveur.
Ce qui compte se sont le alt mais également ce qui a autour de l'image (contenu de la page, légende etc.)

Ce qui n’est effectivement pas normal c'est qu'il conserve en bonne position le site alors que celui-ci est selon lui piraté.
Faut-il encore vraiment savoir sur quels mots clés il se positionne encore. Si on prend le mot clé présent dans la capture d'écran il n'y a rien d’anormal.
 
WRInaute discret
Oui, c’est vrai, il n’y a rien d’anormal si l’image est située sur un autre serveur. Mais Google ne détecte pas qu’il s’agit de la même image et positionne le site en premier alors que j’occupais cette place depuis longtemps.

Je sais bien Google ne peut pas voir l’image comme un "humain" mais ils ont clairement fait de gros progrès dans les analyses d’images (voir Google photos) et là il semble incapable de comprendre.

En ce moment, je suis confronté à une grosse baise de trafic suite au vol d’image :

Des sites avec des noms de domaines sans aucun sens qui pillent des images de différents sites dans la même thématique et qui se place directement en première place. Je signale les url à Google qui retire les urls rapidement (millenium act). Mais le temps que je m’occupe d’une url, il y a 10 sites qui apparaissent. Cette technique n’est pas nouvelle, les sites sont alimentés par des robots. C’est comme si Google était incapable de lutter contre ce spam.

Exemple :
http: //icsv16.org/resume-word-template.html

Je pourrais en donner des dizaines comme ça.

J’ai volontairement brisé le lien avec un espace mais vous pouvez aller voir. Tous ces sites se positionnent super bien. J’ai du mal à comprendre que Google ne puisse détecter un truc louche quand même.

Dans mon premier message, la capture montre une requête où je cherche le domaine exacte mais on peut trouver ce site sut la requête « cv Word ».

Tous mes mots clefs sont touchés. J’ai au moins 30% de baisse de trafic en ce moment à cause de ça.

Je me demande si je ne vais pas interdire le hotlinking pour tout même Google. Comme ça, ces robots ne trouveront pas mes images car je pense qu’ils se servent de Google pour rechercher les images et le mots clefs d’une thématique populaire.
 
WRInaute passionné
Vinyl a dit:
Je me demande si je ne vais pas interdire le hotlinking pour tout même Google. Comme ça, ces robots ne trouveront pas mes images car je pense qu’ils se servent de Google pour rechercher les images et le mots clefs d’une thématique populaire.

;-) je me suis posé la question également mais je ne prend pas le risque de le faire, mais c'est très tentant!
 
WRInaute discret
Oui, c’est très tentant. Surtout qu’avec la nouvelle interface de Google image, je pense que l’on reçoit moins de trafic. Il n’y a plus de lien direct vers nos sites. Les utlisateurs restent sur Google image.

Sinon, j'ai signalé le site piraté comme spam auprès de Google. J'ai reçu une réponse automatique de google (Nous prenons la qualité de nos résultats de recherche très au sérieux....). On verra bien. Aujourd'hui, il est toujours premier en tout cas.
 
WRInaute accro
frenchhorn a dit:
;-) je me suis posé la question également mais je ne prend pas le risque de le faire, mais c'est très tentant!
Quand toutes les photos sont dans un dossier unique (même ramifié) c'est pas compliqué de rediriger le trafic image vers un script qui en testant le referer prend une décision ... :wink:
Implanter une white liste basé sur les IP ou les domaines peut être aussi assez light a réaliser.

A partir d'un tel script tu peux avoir pas mal d'options sympa comme servir une autre image, mettre un watermark, re-dimensionner la photo, envoyer un deny avec login (ça calme pas mal le hotlink ça), servir une version pixelisée, envoyer une image ultra lourde pour planter le site qui hotlink, insulter le visiteur pour tuer la réputation du site, envoyer de la pub gratos pour ton site ....

Faut faire preuve d'imagination :D
 
WRInaute discret
Pas mal zeb ! J’ai mis en place récemment une règle htaccess pour afficher une autre image mais j’avoues que tu me donnes des idées en plus.
 
WRInaute accro
j'ai pu sous la main désolé. A noter dans les trucs que tu peux aussi faire (et que je faisait) : s'envoyer un mail pour prévenir quand le hotlink est détecté.
 
WRInaute accro
Vinyl a dit:
Pas mal zeb ! J’ai mis en place récemment une règle htaccess pour afficher une autre image mais j’avoues que tu me donnes des idées en plus.

Pour avoir fait un bricolage du même style, peu d'intérêt. Google ne s'en occupe pas (à part qu'il affiche l'image modifiée mais la laisse quasiment à sa place dans Google image. Personnellement, j'ai fait en htaccess une erreur 403 provenant de ces copieurs et les images ne sont plus affichées mais ... les différents webmasters n'ont pas l'air de s'en occuper. Ils copient une fois et vérifient plus leurs pages.

zeb a dit:
envoyer un deny avec login (ça calme pas mal le hotlink ça)
Pas mal comme idée, me souvient avoir réinstaller mon serveur et c'est Olivier (dit WRI) qui m'avait envoyé un message pour mon avatar sur le forum :mrgreen:
 
WRInaute discret
Hello,

Je suis intéressé pour savoir comment vous faite un login deny ou une erreur 403.

Je vais faire une recherche mais si jamais vous avez le code sous la main ?

Actuellement, j’utilise ces règles dans mon htaccess sous prestashop 1.6 :

Code:
RewriteCond %{HTTP_REFERER} !^$
RewriteCond %{HTTP_REFERER} !^http(s)?://(www.)?mon-domaine.com [NC]
RewriteCond %{HTTP_REFERER} !bing\. [NC]
RewriteCond %{HTTP_REFERER} !google\. [NC]
RewriteCond %{HTTP_REFERER} !search\?q=cache [NC]
RewriteRule .(jpg|jpeg|png|gif)$ http://www.domaine.com/img-anti-hotlinking/test.jpg [NC,R,L]

J’en avais une autre mais provoquait une erreur 500 sur le site.

Ici, j’autorise Google, Bing. Les autres sites qui font du hotlinking charge une image de remplacement.

En suivant l’idée de zeb, j’ai mis une image qui fait 60 Mo ;-)
 
WRInaute accro
Ton htaccess est lourd car il totalise plusieurs conditions avant d'agir. Hors il va être "exécuté" pour chaque requête sur ton site (donc pour chaque ressource demandée (plusieurs par page)).
Il conviens donc de l'alléger dans le genre :
Code:
RewriteRule .(jpg|jpeg|png|gif)$ /dossier/hotlink.php
Note que tu peux sûrement jeter l'éponge pour le png, le gif etc ... et te concentrer sur le JPG
Code:
RewriteRule (.*)jpg$ /dossier/hotlink.php?data=$1

"hotlink.php" sera en charge de prendre les décisions qui s'imposent comme servir la bonne image par exemple et afin de renvoyer les headers voulus tu utiliser la fonction header() de php.
$_GET['data'] contiendra l'url demandé, tu as aussi les variables serveur pour mamailler ce que tu souhaite.
 
WRInaute accro
C'est une façon pour déporter une logique applicative sur un script php à la place d'un htaccess lourd qui lui est en mesure de délivrer un document de tout format (image, CSS, CSV, JS) en prenant des décisions et en appliquant des actions voulues ;-)
Php est pratique pour gérer :
* un envoie de mail d'alerte (genre attention grobourrin.com utilise l'image truc)
* une white liste du genre c'est google le referer je laisse passer l'image.
* une black liste du genre c'est trou du c*l point com qui veux ma photo je lui balance 500 Go de data image.
* c'est un moteur je met un filigrane sur l'image
* c'est un portable qui est connecté (user agent) je lui donne une version super compressée
* c'est la 50 000 ième image demandée il y a un truc je l'envoie chier
etc ...
Code:
header('Content-Type: image/jpeg');
voire quelques idées connexes
 
WRInaute discret
Merci pour le lien. Je travaille dessus.

Sinon, je me demande comment fonctionne le spam :

La technique du pirate / spammeur est simple :

Il charge une image populaire sur son site depuis un autre serveur
Il remplit la page de mots clefs, sans aucun sens (des mots en anglais, français, espagnol) et se positionne très haut dans les résultats avec une page suroptimisée.
Ensuite, une redirection envoie le viseurs sur une page de spam.

Comment se fait-il que Google ne détecte pas cette redirection et indexe la page truffé de mots clefs ?

Un exemple avec le site que j’ai cité dans mon premier post :

https://www.google.com/search?q=deportimperium&ie=utf-8&oe=utf-8#q=sit ... um+cv+word
 
WRInaute accro
Vinyl a dit:
Comment se fait-il que Google ne détecte pas cette redirection et indexe la page truffé de mots clefs ?
Cloacking, regarde la page "visiteur" et la version en cache (ou texte seul), les bots google ne reçoivent pas le même contenu ...
 
WRInaute discret
Et encore, c'est quand tu as la "chance" que Google ait détecté que le site est piraté !

Comme exemple invariable, tu peux chercher louboutin pas cher ou nike tn requin , les 2/3 des résultats en première page sont des sites mal sécurisés qui se réveillent un matin avec une boutique de contrefaçon en lieu et place des horaires de la messe :lol:

Axe-Net en parlait assez bien http://blog.axe-net.fr/dossier-contrefacon-premiere-page-google/
(moi aussi sur mon site, mais bon, pas de pub)

Curieusement, ces sites disparaissent aussi vite qu'ils sont montés : j'ai l'impression qu'en retentant la requête le lendemain, les résultats sont largement différents.
 
Discussions similaires
Haut