Lutter contre le vol de contenu, des astuces?

noren

WRInaute accro
Bonjour

Existe t-il des astuces et des techniques pour éviter de se faire copier son contenu (voir l'intégralité de son site)? Pour fortement ennuyer le copieur ou faire comprendre à google que l'autre site est une copie?

- Interdire les aspirateurs de site dans le .htacess? (est-ce efficace?, si oui, lesquels et comment?)
- intégrer des lien complets en interne, exemple : monsite.ndd/mapage.html (pas très efficace on peut rapidement remplacer sur toutes les pages du site copié les liens qui commencent par "monsite.ndd" par "lacopie.ndd").

Comment vous protégez vous des copieurs?

Ps : C'est dans l'éventualité ou toute négociation avec le copieur est impossible, que celui-ci est hébergé à l'étranger et que rien n’aboutis avec l'hébergeur.
 

jolm

WRInaute discret
Pourquoi ne pas le signaler a google dans un premier temps. J'ai plus l'url du formulaire par contre ... Des retours d'expérience seraient les bienvenus car tout le monde peut être touché par ce genre de mésaventure ...
Ta chute serait donc due a du duplicate selon toi ?
 

zeb

WRInaute accro
Pour avoir vu ton cas je pense que les mesures genre anti aspirateur c'est pisser dans un violon.
Ensuite si j'ai pas de solution j'ai un constat, mes articles pompés repassent devant au bout d'un certain temps ... certes faut avoir les moyen d'attendre et c'est pas une solution.

En tous cas c'est une piste sérieuse de ton déclassement. A propos si tu as déposé le NDD tu ne peux pas les faire fermer pour squat, c'est très proche quand même ?
 

ybet

WRInaute accro
Le sujet m'intéresse aussi ... En 2008, 2009 avec les tests de pénalités de l'époque, j'avais déjà utilisé sur un site un sript anti-click droit. On va être logique, c'est contournable mais va a déjà supprimé un paquet de copies sur des blog quasiment inutile, des fichiers docs hébergés sur Internet, ... free, blogspot et consort. Cette solution est loin d'être correcte, juste que les internautes sans compétances qui veulent se croire costauds dans un domaine on tendance à copier le site suivant.

Comme ces copies sauvages sont souvent afrique centrale, je supprime à fait toutes les plages d'adresses IP par htaccess (d'autres aussi).

La deuxième solution que j'emploie (en complément) est basé sur un anti ab-blog http://antiblock.org/?p=script&demo avec blocage des navigateurs qui bloquent ... le java script: c'est en partie contournable aussi.

Pour les images, il y a des solutions en PHP (pas essayées).

Reste la partie automatique, un paquet de site reprennent des résultats de recherche (Google, msn, ...) et de là reprennent la partie contenu (le plus souvent une ou deux phrases). Impossible de les bloquer par un anti-spider ... uniquement en manuel par .htaccess.

Il doit y avoir d'autres solutions
 

noren

WRInaute accro
@jolm : dans mon cas j’attends un peu car j'ai l'impression que le plagieur à retiré les pages (même si elles sont toujours référencés sur google) mais je suis pas certain qu'il ne prépare pas un plus sale coup. il est hébergé à l'étranger.
Mais il est certain qu'en fonction de comment ça va évoluer je serais obligé d'essayer de trouver un moyen d'avertir google, même si je pense que dans ce cas la c'est très dur de se faire entendre.

@zeb : je peux être patient, dans la mesure ou ça ne met pas des lustres et que je me retrouve pas out à cause de ça. :wink:
Pour l'anti aspirateur tu dis ca parcequ'il déjà copié le site? ça pourrait au moins faire en sorte qu'il ne puisse plus recommencer (lui ou un autre).
maintenant j'ai cru lire que ça alourdissait le .htaccess et donc les performances du site. Avec des risques de ne pas laisser les bons bots.

Non mon NDD n'est pas déposé, j'avais cependant acheté pas mal d'extension de NDD (.fr, .org, .net...) pour limiter les risques mais on peu pas tous les acheter.
A la limite est-ce que le fait que le copieur a le même NDD change énormément les choses? mon NDD n'a pas un fort impact (il avait été assez mal choisi au départ) c'est surtout le contenu qui me dérange.

Ce qui est hallucinant c'est que mon site à plusieurs années, le copieur seulement 3-4 mois et google lui attribue (pour le moment) la paternité des articles! (c'est peut être la cause de ma sanction, mais je suis loin d'être certain de ça). De plus il a même pas une IP française.

J'imagine qu'il faut beaucoup de temps à google pour rétablir les choses et détecter que c'est lui la copie.

C'est vraiment un fléau les copies sur Internet. Et c'est très difficile de lutter contre ça, d'autant plus quand c'est international.

Mais pour le moment sans parer spécifiquement de mon cas, vu que je suis pas dans la bonne section, je suis plutôt à la recherche de solution qui pourraient servir à tout le monde.

N'y a t-il pas des bouts de codes qu'on pourrait bien dissimuler sur nos pages?
Il doit bien y avoir des petites techniques pour faire chier ces copieurs ou leur compliquer la tache. :?
 

zeb

WRInaute accro
pour l'anti aspirateur c'est surtout car c'est pas efficace, contournable, lourd pour le site, dangereux (si moteur assimilé a aspirateur) etc ....
 

ybet

WRInaute accro
zeb a dit:
pour l'anti aspirateur c'est surtout car c'est pas efficace, contournable, lourd pour le site, dangereux (si moteur assimilé a aspirateur) etc ....
on en revient au début: ca bloque les solutions standards (genre le petit crétin qui copie le site pour son utilisation interne et pas les pros.

Mon htaccess (qui sait ca aidera d'autres et j'en rajoute à fait)
Code:
RewriteEngine On
RewriteCond  %{HTTP_HOST}  !www.materiel-informatique.be
RewriteRule (.*) http://www.materiel-informatique.be/$1 [R=301,L]
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR] 
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR] 
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR] 
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR] 
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR] 
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*AppEngine.Google.* [OR]
RewriteCond %{ENV:GEOIP_COUNTRY_CODE} ^SN|NE|NG|CG|DE|CI|BJ$
RewriteCond %{HTTP:VIA}                 !^$ [OR]
RewriteCond %{HTTP:FORWARDED}           !^$ [OR]
RewriteCond %{HTTP:USERAGENT_VIA}       !^$ [OR]
RewriteCond %{HTTP:X_FORWARDED_FOR}     !^$ [OR]
RewriteCond %{HTTP:PROXY_CONNECTION}    !^$ [OR]
RewriteCond %{HTTP:XPROXY_CONNECTION}   !^$ [OR]
RewriteCond %{HTTP:HTTP_PC_REMOTE_ADDR} !^$ [OR]
RewriteCond %{HTTP:XROXY_CONNECTION}    !^$ [OR]
RewriteCond %{HTTP:X-FORWARDED-FOR}     !^$ [OR]
RewriteCond %{HTTP:HTTP_CLIENT_IP}      !^$ [OR]
RewriteCond %{HTTP:FORWARDED-FOR}       !^$ [OR]
RewriteCond %{HTTP_REFERER} .*web2pdfconvert.com*$ [NC]
RewriteRule ^.* - [F,L]

RewriteCond %{ENV:GEOIP_COUNTRY_CODE} ^SN|NE|NG|CG|DE|CI|BJ|BI|RW$
RewriteRule .* - [F]

order allow,deny
# trafficsize.com (dupplicate)
deny from 50.116.8
# semrush.com
deny from 216.239.32
deny from 46.229.161
deny from 74.125.178.84
deny from 209.85.224
deny from 1.161.136.52
deny from 95.173.176.54
deny from 220.125.208.245
deny from 176.31.224.95
deny from 122.201.95.86
deny from 213.85.69.7
deny from 69.27.103.6
deny from 211.144.82
deny from 193.225.84
deny from 213.144.108
deny from 203.93.27
deny from 203.93.28
deny from 203.93.29
deny from 91.224.160.141
deny from 91.224.160.132
deny from 188.207.200.116
deny from 49.50.8.215
deny from 213.138.101.228
deny from 208.115.111.64/28
deny from 83.145.232.94
deny from 50.22.252.242
deny from 74.118.192.136
deny from 173.192.228.40
deny from 112.210.127.100
deny from 217.149.51.37
deny from 174.36.215.174
deny from 213.19.160.194
deny from 109.104.89.118
deny from 109.104.89.117
deny from 209.163.108.80
deny from 66.119.43.32
deny from 216.92.167.126
deny from 130.88.203.87
deny from 27.251.106.115
deny from 222.255.6.21
deny from 64.235.242.15
deny from 203.31.34.144
deny from 207.241.149.50
deny from 207.126.123.14
deny from 203.251.21.105
deny from 66.39.5.184
deny from 208.185.127.41
deny from 66.119.43.36
deny from 66.119.43.30
deny from 66.119.43.31
deny from 209.34.241.44
deny from 66.119.43.34
deny from 66.119.43.37
deny from 123.100.5.62
deny from 91.210.84.54
deny from 62.56.230.22
deny from 220.225.83.28
deny from 207.126.123.24
deny from 173.203.95.120
deny from 71.16.199.73
deny from 216.92.112.113
deny from 207.241.149.48
deny from 207.241.148.85
deny from 217.170.36.129
deny from 85.214.61.55
deny from 213.121.62.120
deny from 217.25.105.38
deny from 217.14.216.211
deny from 180.149.253.251
deny from 183.186.142.118
deny from 66.147.238.14
deny from 201.116.59.72
deny from 67.148.11.168
deny from 91.144.178.19
deny from 123.100.5.61
deny from 124.30.7.152
deny from 174.142.125.161
deny from 200.227.128.111
deny from 64.79.220.216
deny from 80.168.111.143
deny from 202.137.19.250
deny from 113.192.9.214
deny from 216.239.113.197
deny from 212.154.150.139
deny from 209.240.134.74
deny from 173.203.79.144
deny from 77.75.81.234
deny from 143.107.176.102
deny from 88.83.68.82
deny from 202.145.7.75
deny from 195.162.162.140
deny from 77.48.31.69
deny from 8.17.32.51
deny from 64.34.121.216
deny from 92.241.163.186
deny from 216.17.101.11
deny from 59.120.161.5
deny from 216.239.113.34
deny from 174.129.207.101
deny from 91.198.165.219
deny from 122.193.16.132
deny from 204.57.114.249
deny from 190.210.68.229
deny from 80.168.111.130
deny from 208.185.127.33
deny from 207.241.148.133
deny from 207.108.136.68
deny from 195.46.126.5
deny from 130.14.29.111
deny from 207.241.149.133
deny from 208.123.213.30
deny from 195.162.162.130
deny from 81.233.9.240
deny from 67.19.193.229
deny from 81.19.49.231
deny from 207.241.148.125
deny from 208.185.127.46
deny from 207.241.148.83
deny from 207.126.123.16
deny from 187.61.14.34
deny from 67.23.8.46
deny from 74.86.253.81
deny from 202.127.97.117
deny from 58.216.168.138
deny from 207.241.148.88
deny from 118.97.236.7
deny from 203.142.82.6

deny from 41.191.200.36
deny from 91.121.21.142
deny from 66.210.125.190
deny from 81.91.84.51
deny from 192.136.7.5
deny from 217.27.42.3
deny from 208.185.127.041
deny from 67.228.176.65
deny from 195.16.49.214
deny from 184.106.205.131
deny from 187.115.25.79
deny from 78.139.90.106
deny from 216.128.185.32
deny from 66.160.167.68
deny from 202.10.67.189
deny from 67.15.104.28
deny from 209.200.46.108
deny from 107.22.217.223
deny from 74.86.253.81
deny from 94.125.166.120
deny from 222.124.194.22
deny from 195.69.134.132
deny from 123.100.5.57
deny from 24.49.5.55
deny from 130.14.29.110
deny from 67.207.139.120
deny from 200.52.196.123
deny from 202.158.143.3
deny from 202.85.222.143
deny from 200.46.123.194
deny from 118.180.7.30
deny from 208.185.16.119
deny from 88.191.144.213
deny from 190.9.128.96
deny from 66.147.238.14
deny from 24.113.36.151
deny from 46.174.220.147
deny from 213.191.154.210
deny from 174.137.152.60
deny from 202.67.13.86
deny from 202.67.13.84
deny from 149.249.17.34
deny from 109.123.111.99
deny from 220.194.59.162
deny from 80.63.56.146
deny from 69.42.121.136
deny from 202.138.134.153
deny from 202.67.13.82
deny from 208.123.212.170
deny from 195.35.83.188
deny from 184.72.45.238
deny from 184.72.42.195
deny from 202.116.160.89
deny from 184.106.139.135
deny from 113.192.9.221
deny from 113.192.9.216
deny from 107.22.251.236
deny from 107.22.227.2
deny from 109.239.58.10
deny from 222.124.207.162
deny from 89.135.18.91
deny from 62.6.180.156
deny from 24.51.85.26
deny from 216.92.115.159
deny from 81.169.167.149
deny from 216.71.194.189
deny from 190.129.73.22
deny from 60.199.206.226
deny from 202.159.65.189
deny from 186.129.252.222
deny from 88.131.82.241
deny from 123.131.133.62
deny from 202.232.97.11
deny from 222.185.237.37
deny from 119.246.151.173
deny from 219.140.60.42
deny from 209.62.12.130
deny from 61.180.67.212
deny from 189.51.42.12
deny from 94.125.166.124
deny from 183.181.27.248
deny from 24.51.85.26
deny from 196.45.48.16
deny from 217.76.35.238
deny from 12.201.88.249
deny from 68.63.210.24
deny from 202.194.24.100
deny from 24.51.85.26
deny from 123.100.5.60
deny from 66.183.110.2
deny from 78.9.97.13
deny from 89.36.26.64
deny from 94.228.35.219
deny from 216.255.86.100
deny from 222.124.206.70
deny from 82.165.221.70
deny from 93.92.129.147
deny from 202.85.220.75
deny from 218.22.64.244
deny from 114.134.75.182
deny from 85.92.159.84
deny from 24.104.24.152
deny from 201.147.20.214
deny from 183.181.29.248
deny from 183.181.168.52
deny from 14.63.215.232
deny from 24.104.24.149
deny from 124.88.235.158
deny from 72.52.126.3
deny from 85.227.179.96
deny from 202.67.13.85
deny from 121.166.100.143
deny from 59.49.13.58
deny from 195.22.20.7
deny from 216.155.139.115
deny from 205.214.205.59
deny from 24.104.24.146
deny from 24.104.24.151
deny from 209.237.236.110
deny from 222.178.37.42
deny from 160.79.35.27
deny from 195.221.75.4
deny from 130.14.29.120
deny from 193.116.157.195
deny from 24.196.230.105
deny from 91.140.239.75
deny from 93.126.43.244
deny from 124.244.214.195
deny from 122.194.11.208
deny from 31.222.165.14
deny from 76.8.12.110
deny from 210.212.29.147
deny from 82.207.46.197
deny from 70.76.34.107
deny from 190.90.187.123
deny from 213.134.46.16
deny from 188.124.131.29
deny from 118.98.74.93
deny from 118.98.74.90
deny from 173.212.205.14
deny from 67.55.115.76
deny from 204.42.255.185
deny from 204.42.255.185
deny from 68.118.59.3
deny from 204.42.255.185
deny from 80.83.0.18
deny from 209.88.88.40
deny from 121.57.91.165
deny from 91.102.162.249
deny from 222.217.99.73
deny from 75.144.217.169
deny from 50.57.175.200
deny from 78.221.156.31
deny from 222.217.99.74
deny from 180.77.145.222
deny from 119.52.93.199
deny from 119.114.120.72
deny from 125.114.63.254
deny from 119.117.218.89
deny from 71.88.103.125
deny from 91.214.72.40
deny from 113.3.155.9
deny from 115.60.138.216
deny from 60.178.191.8
deny from 119.190.118.166
deny from 112.240.147.45
deny from 117.8.118.18
deny from 112.228.8.4
deny from 59.62.3.8
deny from 112.237.185.140
deny from 60.1.173.138
deny from 222.133.212.204
deny from 119.189.217.146
deny from 119.179.163.56
deny from 123.244.15.153
deny from 119.1.234.70
deny from 58.245.86.9
deny from 111.186.88.195
deny from 112.228.59.10
deny from 116.52.174.143
deny from 124.225.192.188
deny from 112.228.60.244
deny from 50.57.175.200
deny from 50.57.175.200
deny from 111.78.219.218
deny from 117.42.156.140
deny from 123.9.249.153
deny from 119.133.215.5
deny from 89.42.86.186
deny from 125.34.240.83
deny from 118.125.174.235
deny from 94.153.58.146
deny from 111.177.111.199
deny from 202.67.13.86
deny from 183.39.50.102
deny from 121.228.99.231
deny from 121.25.30.223
deny from 125.71.37.64
deny from 115.150.21.198
deny from 125.92.233.16
deny from 119.183.156.243
deny from 113.237.191.14
deny from 119.62.180.159
deny from 120.33.39.214
deny from 74.118.194
deny from 50.116.8
deny from 37.59.80.47
deny from 112.210.15
deny from 91.207.6.138
deny from 5.135.218.239
deny from 41.189.210.33
# deux suivant sont pldt.net philippine
deny from 112.210.15
deny from 112.207.137
# pour free 212.27.40.246.
deny from 212.27.40.246
# 4 adresse pour anonymouse.org
deny from 193.200.150.82
deny from 193.200.150.137
deny from 193.200.150.125
deny from 193.200.150.152
# niger avec grosse activité suspecte sur le forum le 10/4/2013
deny from 91.236.75
# grosse activité sur le forum 10/04/13
deny from 196.20.66.130
# activité suspecte sur le forum 09/04/2013
deny from 192.210.57.242
# activité suspecte 11/04/2013: togo
deny from 41.207.162
# 11/04: chine, activité suspecte sur forum
deny from 117.26.86
# cameroun, activité suspecte le 12/4/13
deny from 195.24.221
# chine, 4 activités suspectes sur le forum 12/4/13
deny from 59.57.205
deny from 60.173.12
deny from 120.43.9
deny from 59.174.22
# activités suspectes 13/4/2013 Etats Unis
deny from 204.12.208
deny from 173.208.180
# activité suspecte sur le forum russie
deny from 91.239.15
deny from 91.207.8
deny from 178.137.166
# activité suspecte sur le forum ovh
deny from 5.135.180
# activité suspecte forum (chine)
deny from 117.27.138
# benin: activité suspecte 13/4/2013
deny from 41.216.38
# benin, activité suspecte 15/4
deny from 41.191.87
# EU, activité suspecte 15/4
deny from 173.199.116.211
# corée du sud, essais de bricolage
deny from 116.193.89
# finlande
deny from 83.150.87
# togo
deny from 41.207.163
# sites turcs et russes, spams sur commentaires
deny from 176.53
deny from 91.237.249
deny from 1.161.144
# brésil commentaires
deny from 189.11.198
deny from 200.202.240
# malaisie commentaires
deny from 61.19.252
# taiwan, commentaires
deny from 111.243.234
deny from 1.161.130
deny from 1.161.131
deny from 1.161.132
deny from 1.161.133
deny from 1.161.134
deny from 1.161.135
deny from 1.161.136
deny from 1.161.137
deny from 1.161.138
deny from 1.161.139
deny from 1.161.140
deny from 1.161.141
deny from 1.161.142
deny from 1.161.143
deny from 1.161.144
deny from 1.161.145
deny from 1.161.146
deny from 1.161.147
deny from 111.243.218
deny from 111.243.239
deny from 111.243.216
# EU, commentaires, hébergement
deny from 142.54.182
deny from 173.242.126
# spams sur info 09/06/13
deny from 96.47.224
deny from 96.47.225
deny from 173.44.37
deny from 94.242.237
deny from 112.210.71
# cote d'ivoir, mail serveur
deny from 41.207
deny from 97.45.225
deny from 173.44.37
# EU: liste de serveurs avec bricoleurs de directory américains
deny from 206.217.205
# une série de sites kimsufi ovh dont liensutiles.fr (bricoleur de directory)
deny from 94.23.17
# série de directory
deny from 198.7.56
deny from 212.51.174
deny from 92.48.84
deny from 112.210.49
# china
deny from 221.176
allow from all

Quelques uns vont avoir leur pub :mrgreen: Attention, ca supprime une partie des pays (OVH intègre une fonction) rempalcer aussi le nom du site.

PS: attention au htaccess une petite erreur de syntaxe dans le fichier et c'est tout le site qui est inaccessible
 

noren

WRInaute accro
ybet a dit:
site un sript anti-click droit. On va être logique, c'est contournable mais va a déjà supprimé un paquet de copies sur des blog quasiment inutile, des fichiers docs hébergés sur Internet, ... free, blogspot et consort. Cette solution est loin d'être correcte, juste que les internautes sans compétences qui veulent se croire costauds dans un domaine on tendance à copier le site suivant.

cette solution en effet élimine les moins doués et les petits copieurs qui pompent quelques articles par ci par là. Mais qu'en est-il pour ceux qui pompent tout le site? Ils utilisent surement des aspirateurs de sites ou je ne sais quoi.

ybet a dit:
Comme ces copies sauvages sont souvent afrique centrale, je supprime à fait toutes les plages d'adresses IP par htaccess (d'autres aussi).

je trouve ça un peu chaud quand même, car ça revient à bloquer l'accès à tout une région à cause de 2-3 individus.


ybet a dit:
La deuxième solution que j'emploie (en complément) est basé sur un anti ab-blog http://antiblock.org/?p=script&demo avec blocage des navigateurs qui bloquent ... le java script: c'est en partie contournable aussi.

Ca par contre j'ai pas compris désolé :/

ybet a dit:
Pour les images, il y a des solutions en PHP (pas essayées).

En ce qui me concerne j'affiche le nom de mon site sur les images, malheureusement le plagieur à le même NDD :/
mais il semblerait qu'il n'est pas réussi à aspirer mes images. je bloque l'accès avec un .htaccess dans le dossier en question.
Maintenant il pourrait très bien les récupérer une par une ou se servir de la cache.

ybet a dit:
Reste la partie automatique, un paquet de site reprennent des résultats de recherche (Google, msn, ...) et de là reprennent la partie contenu (le plus souvent une ou deux phrases). Impossible de les bloquer par un anti-spider ... uniquement en manuel par .htaccess.

ca me dérange moins, c'est très fréquent et je pense que google repère facilement ce type de site. D'autant plus que que ça touche un grand nombre de sites. puis ça reste de la copie très partielle.
 

ybet

WRInaute accro
noren a dit:
ybet a dit:
Comme ces copies sauvages sont souvent afrique centrale, je supprime à fait toutes les plages d'adresses IP par htaccess (d'autres aussi).

je trouve ça un peu chaud quand même, car ça revient à bloquer l'accès à tout une région à cause de 2-3 individus.
Ca dépend des thématiques, moi c'est l'informatique

noren a dit:
ybet a dit:
La deuxième solution que j'emploie (en complément) est basé sur un anti ab-blog http://antiblock.org/?p=script&demo avec blocage des navigateurs qui bloquent ... le java script: c'est en partie contournable aussi.

Ca par contre j'ai pas compris désolé :/
En gros, le script bloque adblog, un truc qui supprime l'affichages des pubs mais dans le paramétrage (avant de mettre le code sur tes pages ), il y a aussi interdire ceux qui viennent avec javascript désactivé .... et retombent sur le premier point

ybet a dit:
Pour les images, il y a des solutions en PHP (pas essayées).

En ce qui me concerne j'affiche le nom de mon site sur les images, malheureusement le plagieur à le même NDD :/
mais il semblerait qu'il n'est pas réussi à aspirer mes images. je bloque l'accès avec un .htaccess dans le dossier en question.
Maintenant il pourrait très bien les récupérer une par une ou se servir de la cache.
noren a dit:
ca me dérange moins, c'est très fréquent et je pense que google repère facilement ce type de site. D'autant plus que que ça touche un grand nombre de sites. puis ça reste de la copie très partielle.
Tu crois? :wink:
 

zeb

WRInaute accro
Dans mon htaccess j'ai aussi qque filtres a boulet :
Code:
	order allow,deny
	deny from 69.197
	deny from 142.54
	deny from 123.151.39.43
	deny from 59.92.84.246
	deny from 190.149.96.101
	deny from 190.56.102.138
	deny from 220.225.218.66
	deny from 201.55.32.83
	deny from 187.60.36.137
	deny from 187.60.38.70
	deny from 187.74.150.114
	deny from 123.238.84.94
	deny from 177.182.220.229
	deny from 164.100.96.254
	deny from 180.215.116
	deny from 95.142.162.100
	deny from 75.98.9.254
	deny from 177.32.95.183
	deny from 115.242
	deny from 115.241
	deny from 190.115.12.130
	deny from 101.63.252.161
	deny from 101.63.253.214
	deny from 94.153.64.11
	deny from 91.207.6.34
	deny from 46.118.119.252
	deny from 1.22.137.238
	deny from 188.92.76.167
	deny from 46.118.117.249
	deny from 82.225.157.16
	deny from 198.211.124.200
	deny from 192.31.21.179
	deny from 92.139.122.51
	deny from 79.51.155.71
	deny from 81.144.138.34
	deny from 178.63.13.147
	deny from 90.35.109.151
	deny from 195.42.102.21
	deny from 38.107.179
	deny from 88.163.71.238
	deny from 41.201.220.95
	deny from 69.13.39.43
	deny from 92.134.17.103
	deny from 46.109.197.17
	deny from 195.221.21
	deny from 92.249.127.111
	deny from 193.106.136
	deny from 110.85.115
	deny from 178.137
	deny from 78.8
	deny from 78.9
	deny from 213.186.127
	deny from 213.186.119
	deny from 212.113.37
	deny from 212.113.35
	deny from 196.217.239.177
	deny from 173.208.23.154
	deny from 173.208.44.30
	deny from 85.17.29.107
	deny from 109.120.156.118
	deny from 213.110.133.221
	deny from 46.4.95
	deny from 62.219.8
	deny from 217.128.139.44
	deny from 195.42.102.25
	deny from 208.115.113.83
	deny from 208.115.111.67
	deny from 208.115.111.66
	deny from 107.22.11.75
	deny from 77.75.77.11
	deny from 184.73.88.78
	deny from 50.16.28.100
	deny from 23.20.61.69
	deny from 50.16.10.205
	deny from 50.16.168.181
	deny from 50.17.79.158
	deny from 67.202.63.50
	deny from 107.20.71.0
	deny from 107.21.141.193
	deny from 107.21.162.140
	deny from 107.21.172.94
	deny from 107.22.5.130
	deny from 107.22.44.202
	deny from 107.22.89.170
	deny from 107.22.148.96
	deny from 107.22.150.199
	deny from 174.129.54.230
	deny from 184.72.128.94
	deny from 184.73.34.125
	deny from 84.198.69.225
	deny from 92.39.50.53
	deny from 107.20.69.233
	deny from 195.132.109.17
	deny from 94.228.34.208
	deny from 61.111.15.90
	deny from 66.219.58.38
	deny from 61.111.15.80
	deny from 77.75.77.17
	deny from 38.111.147.83
	deny from 46.236.95.190
	deny from 108.59.8.70
	deny from 89.145.95.2
	deny from 78.116.61.24
	deny from 192.100.120.41
	deny from 111.13.8.92
	deny from 176.9.51.133
	deny from 91.207.4.186
	deny from 178.137.5.24
	deny from 178.137.5.8
	deny from 46.119.118.178
	deny from 91.207.9.226
	allow from all
	

	RewriteEngine On
#
#	banissement via user agent
#
	RewriteCond %{HTTP_USER_AGENT} .*trendiction.de.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} .*exabot.com.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} .*majestic12.co.uk.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} .*metadatalabs.com.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} .*proximic.com.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} .*picsearch.com.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} .*AhrefsBot.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} .*sistrix.net.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} "EC2LinkFinder"
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} "EasouSpider"
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} "Java/1.4.1_04"
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} "Java/1.6.0_29"
	RewriteRule .* - [F,L]
	
	RewriteCond %{HTTP_USER_AGENT} "Java/1.7.0_15"
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} "GSLFbot"
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} "TurnitinBot/2.1"
	RewriteRule .* - [F,L]
	
	RewriteCond %{HTTP_USER_AGENT} .*AppEngine.Google.*
	RewriteRule (.*) http://search.yahoo.com/search?p=et+mon+cul+c+est+du+poulet [L]

J'ai aussi une inclusion de fichier javascript direct dans le contenu ce qui fait que "certains copieurs wysiwyg" se retrouvent avec une ref javascript directe vers mon domaine je peux donc faire ce que je veux de leur visiteurs (signaler ou rediriger)
 

zeb

WRInaute accro
noren a dit:
En ce qui me concerne j'affiche le nom de mon site sur les images, malheureusement le plagieur à le même NDD :/
Règle de réécriture dans le dossier image (htaccess) :
si le domaine referer est pas le tiens alors tu envoies une entête "acces denied" qui va donc ouvrir une popup de demande de mot de passe chez l'internaute ... tu peux de plus personnaliser le message.
 

noren

WRInaute accro
ca risque pas de bloquer google image aussi?

moi j'ai juste un "Options -Indexes"

Par contre bloquer le clic droit ça peut être très embêtant pour certain. Tu peux plus demander d'ouvrir un lien dans un nouvel onglet etc.

Ybet ta liste d'aspirateur que tu bloques tu les as choisis selon quels critères? car il y en a bien plus que ça non? est-elle à jour?

Comment faites vous pour savoir les Ip que vous voulez deny? Comment je fais pour connaitre l'ip de mon plagieur?
 

ybet

WRInaute accro
noren a dit:
Comment faites vous pour savoir les Ip que vous voulez deny? Comment je fais pour connaitre l'ip de mon plagieur?

Pour la liste des apirateurs, elle ne sera jamais à jour :mrgreen:

Pour l'adresse IP: sous Dos: ping http://www.site.com Sauf que je vérifie ensuite toute la plage (le plus souvent tous des serveurs): si le site est 190.23.17.225 en htaccess, ca donne deny from 190.23.17 (tant pis pour les 253 autres sites)
 

zeb

WRInaute accro
noren a dit:
Comment faites vous pour savoir les Ip que vous voulez deny? Comment je fais pour connaitre l'ip de mon plagieur?
Perso j'ai un script interne qui me log tout les clampins qui consultent plus de 20 pages (donc il y a dedans que des bots, des aspirateurs, et moi plus qques rares internautes)
Si tu met la liste en corrélation avec leur User Agent, les hash de sessions (qui changent systématiquement pour un bot mais pas pour un user normal) tu finis par avoir une liste d'IP pas catholiques que tu peut pinguer comme te dis Ybet pour voir d'où ça viens ...
Après soit tu ban par IP ou UA si ça vaux le coup de viser plus large.

Ton plagieur tu ne peux trouver que l'IP de son serveur donc tu ping ...

bash-4.0$ ping s****s.info
PING s****s.info (93.188.160.27) 56(84) bytes of data.
64 bytes from 93-188-160-27.main-hosting.com (93.188.160.27): icmp_seq=1 ttl=46 time=132 ms
64 bytes from 93-188-160-27.main-hosting.com (93.188.160.27): icmp_seq=2 ttl=46 time=131 ms
64 bytes from 93-188-160-27.main-hosting.com (93.188.160.27): icmp_seq=3 ttl=46 time=132 ms
64 bytes from 93-188-160-27.main-hosting.com (93.188.160.27): icmp_seq=4 ttl=46 time=131 ms
^C
--- s****s.info ping statistics ---
4 packets transmitted, 4 received, 0% packet loss, time 3336ms
rtt min/avg/max/mdev = 131.697/131.984/132.235/0.492 ms

Pays de l'est il semble ... pas cool.
 

noren

WRInaute accro
ybet a dit:
Pour l'adresse IP: sous Dos: ping http://www.site.com Sauf que je vérifie ensuite toute la plage (le plus souvent tous des serveurs): si le site est 190.23.17.225 en htaccess, ca donne deny from 190.23.17 (tant pis pour les 253 autres sites)

A quoi ça sert réellement de bloquer les Ip des serveurs du copieur? J'imagine que si il récupère mon site ce n'est pas à partir du serveur mais à partir de chez lui. Ensuite si on prend mon cas à partir du site plagiat il n'y a plus aucun lien direct avec mon site, par conséquent j'imagine que l'adresse Ip de son serveur ne vient jamais faire un tour sur mon site ;)

cette solution est valable j'imagine si par exemple, les images sont chargées de son site à partir du mien (pour pomper ma bande passante) non?

@zeb : ouhla je crois que je suis trop rouillé pour mettre un tel script en place. ce n’est pas trop lourd pour le serveur?

D'ailleurs je viens de trouver ça (ça correspond un peu à ce que tu fais zeb, je pense)) :

https://www.webrankinfo.com/forum/t/script-php-anti-aspirateur.1404/

Le script fourni par Renardrouge vous semble t-il toujours valable? Il me parait très intéressant pour palier au manque de fiabilité de l'user-agent,, mais je crains de bloquer les bons bots. :?
 

zeb

WRInaute accro
noren a dit:
A quoi ça sert réellement de bloquer les Ip des serveurs du copieur ?
Uniquement si la copie est dynamique comme tu l'a bien compris mais bon connais pas grand monde qui pompe 1000 pages a la main ...
noren a dit:
ce n’est pas trop lourd pour le serveur ?
bah en fait je passe une requête SQL pour chaque page le reste se passe en back office donc oui une requête par page pour des stats ça peut être lourd mais a l'inverse juste une c'est pas la mort ... (le cache permet de ne rien faire d'autre une fois les stats faites)
 

noren

WRInaute accro
Une personne qui passe par un aspirateur de site passe par chez lui non par le serveur d'hébergement non? (désolé si j'ai quelques lacunes). A mon avis c'est ce qui a été fait dans mon cas.

par conséquent il peut copier rapidement sans faire à la main.

Comment peut-on copier dynamiquement à partir du serveur d'hébergement?

Ok merci pour l'info concernant ton script

Mais que penses tu du script suivant :

https://www.webrankinfo.com/forum/t/script-php-anti-aspirateur.1404/

Il banni toutes ip qui visitent plus de 25 pages (configurable) par minute. D'après la personne à l'origine de ce script les moteurs de recherche ne sont pas bloqués car ils ne sont pas aussi bourrins et change en plus d'ip en crawlant le site (mais difficile d'en être certain)

Mais à la base cette solution me semble plutôt intéressante car on ne tient plus compte du user-agent qui peut être modifié facilement. maintenant difficile de savoir si ça ne va pas bloquer et bannir de bons bots :/

Autre solution proposée ici :

http://www.commentcamarche.net/faq/4274-webmaster-empecher-l-aspiratio ... e-mon-site

mettre une petite image 1x1 cliquable et qui pointe sur un lien qui banni l'ip qui a cliqué et qui est forcément un bot. Mais le problème c'est comment éviter que google, bing etc, ne cliquent pas également? :roll:

Pour le moment j'ai ajouté dans le robots.txt les mêmes règles de WRI (pour les aspiros). je vais peut être les combiner avec quelques règles dans le .htaccess.
 

zeb

WRInaute accro
Si j'avais besoin de pomper ton site je ferais ça directement de mon serveur je voie pas ce que j'en ferais chez moi c'est pas là que les données sont necessaire ...

Comment peut-on copier dynamiquement à partir du serveur d'hébergement?
Un curl par exemple

Il banni toutes ip qui visitent plus de 25 pages (configurable) par minute. D'après la personne à l'origine de ce script les moteurs de recherche ne sont pas bloqués car ils ne sont pas aussi bourrins et change en plus d'ip en crawlant le site (mais difficile d'en être certain)
GG me pompe environ 15000 pages par jour sur un site et il ne change pas d'IP :wink: au mieux c'est une ou deux ip par jour et certes pas toujours les mêmes chaque jour. Bing lui en utilise un 20aine et pompe moins par ip. Voila lui c'est 30/40 pages par IP mais depuis beaucoup de serveurs différents.

T'auras beau retourner le problème des aspirateurs dans tous les sens tu ne trouvera pas de solution optimum. C'est le seul truc qui est cablé chez moi et quasi jamais en fonction pour une raison ou une autre car c'est pas idéal.

De toute façon j'ai toujours réussi à contourner ce genre de script quand j'avais besoin d'un site. C'est dire que si un gars est déterminé a te copier c'est pisser dans un violon.

C'est toi qui a volontairement viré de ton site les pages copiées ?

De plus ton site ne s'est pas fait pomper car il est sensible aux aspirateurs il c'est fait pomper car tu avais une bonne place avec ton contenu.

Regarde le cache google et la page live c'est fait pour présenter un ADS GG après une redirection ... Donc tu clique sur le lien qui va bien (en bas a droite de l'ads) et tu balance pour violation des droits d'auteur, cloacking et tu explique que tu pense subir une pénalité GG a cause de cela ... bref tu leur étale le problème du contenu volé et de ta baisse énorme de visibilité a mon avis ils vont répondre vue que leur cache contiens encore ton site (du moins ton contenu sur leur site).

Passe les urls a Ybet si c'est pas déjà fait tu aura un avis surement intéressant.
 

noren

WRInaute accro
J'ai quand même ajouté quelques petite sprotections anti aspiro. J'ai ajouté ceci dans le .htaccess :

Code:
#--------------------------------------------------
# Règles pour bloquer les mauvais robots
#--------------------------------------------------
## EXCEPTION: TOUS LES ROBOTS MEMES ANONYMES OU BANNIS PEUVENT ACCEDER A CES FICHIERS
RewriteCond %{REQUEST_URI} !^/robots.txt
RewriteCond %{REQUEST_URI} !^/sitemap.xml
##
RewriteCond %{HTTP_USER_AGENT} ^-?$ [OR] ## ANONYMES
RewriteCond %{HTTP_USER_AGENT} ^[bcdfghjklmnpqrstvwxz\ ]{8,}|^[0-9a-z]{15,}|^[0-9A-Za-z]{19,}|^[A-Za-z]{3,}\ [a-z]{4,}\ [a-z]{4,} [OR] ## CEUX QUI INVENTENT DES NOMS AU HASARD 
RewriteCond %{HTTP_USER_AGENT} ^<sc|<\?|^adwords|@nonymouse|Advanced\ Email\ Extractor|almaden|anonymous|Art-Online|autoemailspider|blogsearchbot-martin|CherryPicker|compatible\ \;|Crescent\ Internet\ ToolPack|Digger|DirectUpdate|Download\ Accelerator|^eCatch|echo\ extense|EmailCollector|EmailWolf|Extractor|flashget|frontpage|Go!Zilla|grub\ crawler|HTTPConnect|httplib|HttpProxy|HTTP\ agent|HTTrack|^ia_archive|IDBot|id-search|Indy\ Library|^Internet\ Explorer|^IPiumBot|Jakarta\ Commons|^Kapere|Microsoft\ Data|Microsoft\ URL|^minibot\(NaverRobot\)|^Moozilla|^Mozilla$|^MSIE|MJ12bot|Movable\ Type|NICErsPRO|^NPBot|Nutch|Nutscrape/|^Offline\ Explorer|^Offline\ Navigator|OmniExplorer|^Program\ Shareware|psycheclone|PussyCat|PycURL|python|QuepasaCreep|SiteMapper|Star\ Downloader|sucker|SurveyBot|Teleport\ Pro|Telesoft|TrackBack|Turing|TurnitinBot|^user|^User-Agent:\ |^User\ Agent:\ |vobsub|webbandit|WebCapture|webcollage|WebCopier|WebDAV|WebEmailExtractor|WebReaper|WEBsaver|WebStripper|WebZIP|widows|Wysigot|Zeus|Zeus.*Webster [NC,OR] ## VRAIS ET FAUX ROBOTS NE RESPECTANT PAS LES REGLES
RewriteCond %{HTTP_USER_AGENT} ^curl|^Fetch\ API\ Request|GT\:\:WWW|^HTTP\:\:Lite|httplib|^Java/1.|^Java\ 1.|^LWP|libWeb|libwww|^PEAR|PECL\:\:HTTP|PHPCrawl|python|Rsync|Snoopy|^URI\:\:Fetch|WebDAV|^Wget [NC] ## BIBLIOTHEQUES / CLASSES HTTP DONT ON NE VEUT PAS. ATTENTION, CELA PEUT BLOQUER CERTAINES FONCTIONS DE VOTRE CMS. NE PAS TOUT EFFACER, MAIS CHERCHEZ LE NOM DE LA CLASSE HTTP CONCERNEE (DEMANDEZ AUX DEVELOPPEURS DE VOTRE CMS). CETTE LISTE BLOQUE 80% DES ROBOTS SPAMMEURS. IL FAUT LA CONSERVER.
RewriteRule (.*) - [F]

En espérant ne pas bloquer de bons bot. J'ai tester dans le WGT et j'ai pas l'impression que ca bloque google en tout cas. J'ai essayé également de naviguer avec firefox et I.E auxun soucis au 1er abord.

maintenant je sais aps pour voila, yahoo, bing etc. :/

j'ai denied également la tranche d'ip du serveur du site malvaillant.

Même si j'ai bien conscience qu'on ne peut pas empêcher la copie si une personne y tient vraiment, on peut en tout cas essayer de freiner les moins malins ;)

pourquoi me demande tu ceci : C'est toi qui a volontairement viré de ton site les pages copiées ?

J'ai rien viré du tout :/ mais j'ai cependant vu qu'en faisant site:nomdemonsite.ndd j'avais plus de 40 pages qui avaient été désindexées (je ne sais pas lesquelles). je vais surveiller que ça ne descende pas trop. Après je sais que ça souvent tendance à bouger... (mais il est vrai que ça m'inquiète un peu.

Autre fait troublant j'ai remarqué que le jour ou google avait fortement réduit les crawls sur mon site (fin avril) correspondent aux dates ou les pages copiées ont été mises en cache sur google. Hasard? difficile à dire.

Regarde le cache google et la page live c'est fait pour présenter un ADS GG après une redirection ... Donc tu clique sur le lien qui va bien (en bas a droite de l'ads) et tu balance pour violation des droits d'auteur, cloacking et tu explique que tu pense subir une pénalité GG a cause de cela ... bref tu leur étale le problème du contenu volé et de ta baisse énorme de visibilité a mon avis ils vont répondre vue que leur cache contiens encore ton site (du moins ton contenu sur leur site).

Pas compris désolé :?

PS : tu penses qu'il s'agit bien de cloaking? comment le vérifier? difficile de dire si les pages ont été supprimées entre temps ou si c'est du cloaking :/ . je vais attendre de voir quand google repassera sur le site du pirates et modifiera la date de la cache. Si les pages sont toujours présentes avec des dates récentes alors je pourrais supposer qu'il s'agit bien de cloaking non? (ca sera d'ailleurs plus facile pour porter plainte pour cloaking que pour droits d'auteurs) :wink:

je vais également contrôler le nombre de pages indexées du site malveillant, voir si ça augmente ou diminue. Pour l'instant il en est a 200 environ de pages indexées, j'en ai plus de 1300 sur mon site
 

ybet

WRInaute accro
je répète, il y a deux types de copieurs.

La première utilise un logiciel qui pompe tout un site d'un bloc sur un PC personnel. Ceux-là peuvent être "un peu" supprimé par un anti aspirateur de site. En IP, c'est dynamique .... le type se déconnecte et reprend aussitôt

La deuxième catégorie (à partir d'hébergement) reprend deux saletés distingues:
1. les robots de lecture (le plus souvent pour essayer de repérer des adresses mails (la côte d'Ivoire, encore elle, semble est en forme ces jours ci)) . Ceux là peuvent être supprimé via htaccess et deny adress
2. les vrais copieurs: ne pompent pas le site, juste des pages. Ton contenu est intéressant, le site le trouve via .... Google ou MSN et suit simplement les adresses dans les résulats de recherche pour pomper la page (sites par sites). Ici aussi tu peux supprimer par adresse IP ... et comme le salopart est capable d'avoir plusieurs sites côtes à côtes: tu vire toute la plage d'adresse.
En gros, l'aspirateur peux bloquer l'amateur et les sites qui récupèrent les adresses mail.

L'anti-click droit (quand il fonctionne réellement ... il y a un paquet de méthodes pour passer outre) ne sert qu'à décourager les copies "partielles" de pages sur des forums et blogs.

C'est bien 4 problèmes différents avec un paquet de solutions distingues propres à chacune d'elles et ... pas trop efficaces.

EDIT: j'avais en plus oublié les proxy :mrgreen:
 

noren

WRInaute accro
J'ai déjà mis un petit frein pour les aspiros (robots.txt et htaccess)

j'ai bloqué l'ip du serveurs d'hébergement du site du copieur.

Après j'ai pas mis la protection pour le clic droit (je veux pas bloquer certaines fonctionnalités) de plus je suis moins gêné par la copie d'un article dans un blog que celui de la copie intégrale de mon site :)
Mais je vais quand même y réfléchir.

J'ai vu aussi que dans ton .htaccess tu bloquais les proxy. La c'est pareil on bloque tous ceux qui utilisent des proxy sans forcément que ça soit des personnes malveillantes (au boulot, écoles, ou pour tout autre raison) :?

Normalement la vraie solution serait que google soit réellement intelligent (ce qui n'est pas le cas). Il devrait savoir identifier le site à l'origine de l'article et virer l'autre. Depuis toutes ces années et le nombre de personnes qui bossent sur ces foutus algo ils sont incapables d'identifier une copie aussi grossière et les techniques de cloaking!
 

ybet

WRInaute accro
noren a dit:
J'ai vu aussi que dans ton .htaccess tu bloquais les proxy. La c'est pareil on bloque tous ceux qui utilisent des proxy sans forcément que ça soit des personnes malveillantes (au boulot, écoles, ou pour tout autre raison) :?

Ah bon !

Je dois quand même t'expliquer la pricipale utilisation des proxy sur Internet. On peut oublier quelques utilisateurs français qui se méfient d'Hadopi. Une des plaie sur Internet est les fausses annonces dans les sites de ... petites annonces. Et nos copains d'afrique centrale savent depuis longtemps que nous les bloquons de différentes manières (le plus souvent par htaccess ... et directement toutes les plages) ... devine qui utilise les proxy en majorité?

En troisième, comme informaticien, si j'interdit l'utilisation d'un site (bon ou mauvais) à des utilisateurs pendant des heures de cours ou de travail, c'est 1. parce que c'est mon boulôt 2. parce que le leur n'est pas de visiter des sites pendant ces heures 3. s'ils font une bétise sur un site via proxy et que l'adresse du réseau est détecté, c'est sur moi qu'on va retomber ...et il y en a des bétises.
 

noren

WRInaute accro
@ybet : possible pour les proxy, mais aller sur des sites quand on est au boulot ou la fac durant ces heures de poses me parait pas interdit et très fréquent ;) ensuite dans mon cas je suis ni leur parent ni leur prof, ni leur patron etc. donc a priori je n'ai aucune raison d'interdire ces utilisateurs. Malgré tout je pense que l'utilisation de proxy est aussi de plus en plus aisé à utiliser pour de bonnes ou mauvaises raisons, et pourrait bloquer petit à petit un grand nombre d'utilisateurs. Avec la paranoia des internautes ils sont de plus en plus nombreux à vouloir se cacher et les navigateurs me semble t-il propose de plus en plus la possibilité de se cacher.

Ce qui ne veut pas dire que bloquer les proxy ne me tente pas et que j'ai appris un truc (je ne savais même pas que c'était possible) ;)

merci concernant les images, je vais regarder ça de plus près, mais on dirait qu'il soit nécessaire de beaucoup, beaucoup de codes
 

noren

WRInaute accro
Bon la j'y comprend rien

j'ai essayé d'ajouter ceci dans le htaccess :

Code:
RewriteCond %{HTTP_USER_AGENT} .*Atomic\_Email\_Hunter* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*HTTrack* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Filangy* [OR]
RewriteCond %{HTTP_USER_AGENT} .*BackWeb* [OR]
RewriteCond %{HTTP_USER_AGENT} .*BackStreet* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Bandit* [OR]
RewriteCond %{HTTP_USER_AGENT} .*BatchFTP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Bullseye* [OR]
RewriteCond %{HTTP_USER_AGENT} .*bumblebee* [OR]
RewriteCond %{HTTP_USER_AGENT} .*capture* [OR]
RewriteCond %{HTTP_USER_AGENT} .*CherryPicker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*CherryPickrElite* [OR]
RewriteCond %{HTTP_USER_AGENT} .*CherryPickerSE* [OR]
RewriteCond %{HTTP_USER_AGENT} .*ChinaClaw* [OR]
RewriteCond %{HTTP_USER_AGENT} .*clipping* [OR]
RewriteCond %{HTTP_USER_AGENT} .*collage* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Collector* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Copier* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Crescent* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Download* [OR]
RewriteCond %{HTTP_USER_AGENT} .*eCatch* [OR]
RewriteCond %{HTTP_USER_AGENT} .*EirGrabber* [OR]
RewriteCond %{HTTP_USER_AGENT} .*email* [OR]
RewriteCond %{HTTP_USER_AGENT} .*EmeraldShield* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*FlashGet* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*FlickBot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*FrontPage* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*GetRight* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*GetSmart* [OR]
RewriteCond %{HTTP_USER_AGENT} .*GetWeb* [OR]
RewriteCond %{HTTP_USER_AGENT} .*GetWebPage* [OR]
RewriteCond %{HTTP_USER_AGENT} .*gigabaz* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Go!Zilla* [OR]
RewriteCond %{HTTP_USER_AGENT} .*GornKer* [OR]
RewriteCond %{HTTP_USER_AGENT} .*gotit* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Grabber* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*GrabNet* [OR]
RewriteCond %{HTTP_USER_AGENT} .*hloader* [OR]
RewriteCond %{HTTP_USER_AGENT} .*httpdown* [OR]
RewriteCond %{HTTP_USER_AGENT} .*InterGET* [OR]
RewriteCond %{HTTP_USER_AGENT} .*JustView* [OR]
RewriteCond %{HTTP_USER_AGENT} .*kapere* [OR]
RewriteCond %{HTTP_USER_AGENT} .*larbin* [OR]
RewriteCond %{HTTP_USER_AGENT} .*LeechFTP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*LexiBot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Missigua* [OR]
RewriteCond %{HTTP_USER_AGENT} .*MSIECrawler* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Vampire* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NetAnts* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NetMechanic* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Openfind* [OR]
RewriteCond %{HTTP_USER_AGENT} .*PageGrabber* [OR]
RewriteCond %{HTTP_USER_AGENT} .*pavuk* [OR]
RewriteCond %{HTTP_USER_AGENT} .*pcBrowser* [OR]
RewriteCond %{HTTP_USER_AGENT} .*PersonaPilot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*PingALink* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Python-urllib* [OR]
RewriteCond %{HTTP_USER_AGENT} .*PycURL* [OR]
RewriteCond %{HTTP_USER_AGENT} .*RealDownload* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Reaper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Recorder* [OR]
RewriteCond %{HTTP_USER_AGENT} .*ReGet* [OR]
RewriteCond %{HTTP_USER_AGENT} .*replacer* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SearchExpress* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SlySearch* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SmartDownload* [OR]
RewriteCond %{HTTP_USER_AGENT} .*snagger* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Snake* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Stripper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Sucker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SuperBot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SuperHTTP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Surfbot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Syntryx* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Teleport* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Telesoft* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NetSpider* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebAuto* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebBandit* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebCapture* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Webclipping* [OR]
RewriteCond %{HTTP_USER_AGENT} .*webcollage* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebCopier* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebEMailExtrac* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebFetch* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebIndexer* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebLeacher* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebMiner* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebMirror* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebReaper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebSauger* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Website* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Webster* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebStripper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebWhacker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebZIP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Wget* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Whacker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*whizbang* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Xenu*
RewriteRule .* - [F]

Lorsque j'essaye ensuite dans le WGT d'explorer comme google des pages de mon site ça me met page inaccessible.
Donc il y a un problème avec ces foutus blocages de bots dans le htaccess qui bloquent également google mais quoi et pourquoi (aucune idée!)

j'avais également essayé ceci

Code:
###FILTRE CONTRE CERTAINS ROBOTS DES PIRATES
RewriteEngine On
## EXCEPTION: TOUS LES ROBOTS MEMES ANONYMES OU BANNIS PEUVENT ACCEDER A CES FICHIERS
RewriteCond %{REQUEST_URI} !^/robots.txt
RewriteCond %{REQUEST_URI} !^/sitemap.xml
##
RewriteCond %{HTTP_USER_AGENT} ^-?$ [OR] ## ANONYMES
RewriteCond %{HTTP_USER_AGENT} ^[bcdfghjklmnpqrstvwxz\ ]{8,}|^[0-9a-z]{15,}|^[0-9A-Za-z]{19,}|^[A-Za-z]{3,}\ [a-z]{4,}\ [a-z]{4,} [OR] ## CEUX QUI INVENTENT DES NOMS AU HASARD 
RewriteCond %{HTTP_USER_AGENT} ^<sc|<\?|^adwords|@nonymouse|Advanced\ Email\ Extractor|almaden|anonymous|Art-Online|autoemailspider|blogsearchbot-martin|CherryPicker|compatible\ \;|Crescent\ Internet\ ToolPack|Digger|DirectUpdate|Download\ Accelerator|^eCatch|echo\ extense|EmailCollector|EmailWolf|Extractor|flashget|frontpage|Go!Zilla|grub\ crawler|HTTPConnect|httplib|HttpProxy|HTTP\ agent|HTTrack|^ia_archive|IDBot|id-search|Indy\ Library|^Internet\ Explorer|^IPiumBot|Jakarta\ Commons|^Kapere|Microsoft\ Data|Microsoft\ URL|^minibot\(NaverRobot\)|^Moozilla|^Mozilla$|^MSIE|MJ12bot|Movable\ Type|NICErsPRO|^NPBot|Nutch|Nutscrape/|^Offline\ Explorer|^Offline\ Navigator|OmniExplorer|^Program\ Shareware|psycheclone|PussyCat|PycURL|python|QuepasaCreep|SiteMapper|Star\ Downloader|sucker|SurveyBot|Teleport\ Pro|Telesoft|TrackBack|Turing|TurnitinBot|^user|^User-Agent:\ |^User\ Agent:\ |vobsub|webbandit|WebCapture|webcollage|WebCopier|WebDAV|WebEmailExtractor|WebReaper|WEBsaver|WebStripper|WebZIP|widows|Wysigot|Zeus|Zeus.*Webster [NC,OR] ## VRAIS ET FAUX ROBOTS NE RESPECTANT PAS LES REGLES
RewriteCond %{HTTP_USER_AGENT} ^curl|^Fetch\ API\ Request|GT\:\:WWW|^HTTP\:\:Lite|httplib|^Java/1.|^Java\ 1.|^LWP|libWeb|libwww|^PEAR|PECL\:\:HTTP|PHPCrawl|python|Rsync|Snoopy|^URI\:\:Fetch|WebDAV|^Wget [NC] ## BIBLIOTHEQUES / CLASSES HTTP DONT ON NE VEUT PAS. ATTENTION, CELA PEUT BLOQUER CERTAINES FONCTIONS DE VOTRE CMS. NE PAS TOUT EFFACER, MAIS CHERCHEZ LE NOM DE LA CLASSE HTTP CONCERNEE (DEMANDEZ AUX DEVELOPPEURS DE VOTRE CMS). CETTE LISTE BLOQUE 80% DES ROBOTS SPAMMEURS. IL FAUT LA CONSERVER.
RewriteRule (.*) - [F]

la par contre c'est au niveau de facebook que j'ai eu des soucis, lorsque je mettais un lein d emon site sur facebook, facebook n'arrivais pas a trouver l'image correspondante ni la description, comme si ce code bloquait des fonctionnalités utilisées par facebook. Et si ça se trouve ça bloquait plein d'autres choses importantes que j'ai pas identifié!
 

noren

WRInaute accro
zeb a dit:
Dans mon htaccess j'ai aussi qque filtres a boulet :
Code:
	order allow,deny
	deny from 69.197
	deny from 142.54
	deny from 123.151.39.43
	deny from 59.92.84.246
	deny from 190.149.96.101
	deny from 190.56.102.138
	deny from 220.225.218.66
	deny from 201.55.32.83
	deny from 187.60.36.137
	deny from 187.60.38.70
	deny from 187.74.150.114
	deny from 123.238.84.94
	deny from 177.182.220.229
	deny from 164.100.96.254
	deny from 180.215.116
	deny from 95.142.162.100
	deny from 75.98.9.254
	deny from 177.32.95.183
	deny from 115.242
	deny from 115.241
	deny from 190.115.12.130
	deny from 101.63.252.161
	deny from 101.63.253.214
	deny from 94.153.64.11
	deny from 91.207.6.34
	deny from 46.118.119.252
	deny from 1.22.137.238
	deny from 188.92.76.167
	deny from 46.118.117.249
	deny from 82.225.157.16
	deny from 198.211.124.200
	deny from 192.31.21.179
	deny from 92.139.122.51
	deny from 79.51.155.71
	deny from 81.144.138.34
	deny from 178.63.13.147
	deny from 90.35.109.151
	deny from 195.42.102.21
	deny from 38.107.179
	deny from 88.163.71.238
	deny from 41.201.220.95
	deny from 69.13.39.43
	deny from 92.134.17.103
	deny from 46.109.197.17
	deny from 195.221.21
	deny from 92.249.127.111
	deny from 193.106.136
	deny from 110.85.115
	deny from 178.137
	deny from 78.8
	deny from 78.9
	deny from 213.186.127
	deny from 213.186.119
	deny from 212.113.37
	deny from 212.113.35
	deny from 196.217.239.177
	deny from 173.208.23.154
	deny from 173.208.44.30
	deny from 85.17.29.107
	deny from 109.120.156.118
	deny from 213.110.133.221
	deny from 46.4.95
	deny from 62.219.8
	deny from 217.128.139.44
	deny from 195.42.102.25
	deny from 208.115.113.83
	deny from 208.115.111.67
	deny from 208.115.111.66
	deny from 107.22.11.75
	deny from 77.75.77.11
	deny from 184.73.88.78
	deny from 50.16.28.100
	deny from 23.20.61.69
	deny from 50.16.10.205
	deny from 50.16.168.181
	deny from 50.17.79.158
	deny from 67.202.63.50
	deny from 107.20.71.0
	deny from 107.21.141.193
	deny from 107.21.162.140
	deny from 107.21.172.94
	deny from 107.22.5.130
	deny from 107.22.44.202
	deny from 107.22.89.170
	deny from 107.22.148.96
	deny from 107.22.150.199
	deny from 174.129.54.230
	deny from 184.72.128.94
	deny from 184.73.34.125
	deny from 84.198.69.225
	deny from 92.39.50.53
	deny from 107.20.69.233
	deny from 195.132.109.17
	deny from 94.228.34.208
	deny from 61.111.15.90
	deny from 66.219.58.38
	deny from 61.111.15.80
	deny from 77.75.77.17
	deny from 38.111.147.83
	deny from 46.236.95.190
	deny from 108.59.8.70
	deny from 89.145.95.2
	deny from 78.116.61.24
	deny from 192.100.120.41
	deny from 111.13.8.92
	deny from 176.9.51.133
	deny from 91.207.4.186
	deny from 178.137.5.24
	deny from 178.137.5.8
	deny from 46.119.118.178
	deny from 91.207.9.226
	allow from all
	

	RewriteEngine On
#
#	banissement via user agent
#
	RewriteCond %{HTTP_USER_AGENT} .*trendiction.de.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} .*exabot.com.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} .*majestic12.co.uk.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} .*metadatalabs.com.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} .*proximic.com.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} .*picsearch.com.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} .*AhrefsBot.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} .*sistrix.net.*
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} "EC2LinkFinder"
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} "EasouSpider"
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} "Java/1.4.1_04"
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} "Java/1.6.0_29"
	RewriteRule .* - [F,L]
	
	RewriteCond %{HTTP_USER_AGENT} "Java/1.7.0_15"
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} "GSLFbot"
	RewriteRule .* - [F,L]

	RewriteCond %{HTTP_USER_AGENT} "TurnitinBot/2.1"
	RewriteRule .* - [F,L]
	
	RewriteCond %{HTTP_USER_AGENT} .*AppEngine.Google.*
	RewriteRule (.*) http://search.yahoo.com/search?p=et+mon+cul+c+est+du+poulet [L]

J'ai aussi une inclusion de fichier javascript direct dans le contenu ce qui fait que "certains copieurs wysiwyg" se retrouvent avec une ref javascript directe vers mon domaine je peux donc faire ce que je veux de leur visiteurs (signaler ou rediriger)

je reviens un peu sur le sujet ;)

Comment fais tu pour connaitre l'IP des boulets? et comment détermines tu qu'il s'agit de boulets?

Ensuite pourrais tu donner un peu plus de détail sur ce cette inclusion de fichier javascript je suis pas sur de bien comprendre :/ (éventuellement me transmettre le code en MP si ça te dérange pas :oops:
 

ybet

WRInaute accro
noren a dit:
D'ailleurs je viens de trouver ça (ça correspond un peu à ce que tu fais zeb, je pense)) :

https://www.webrankinfo.com/forum/t/script-php-anti-aspirateur.1404/

Le script fourni par Renardrouge vous semble t-il toujours valable? Il me parait très intéressant pour palier au manque de fiabilité de l'user-agent,, mais je crains de bloquer les bons bots. :?

Probablement oui, mais décider que un vrai bot lis moins de 30 pages par secondes (sous-entendu les autres plus) est faux.

De temps en temps MSN (ou pire voila) décide de se réveiller et là il dépasse. Dans l'autre sens, tous les "mauvais" boot ne dépassent pas les 30 pages (certains sont plus malins).

La réelle solution est de créer sur des ensembles de pages un dossier avec un fichier txt noindex, nofollow. Tous les "bons" robots suivent cette directive et les autres généralement non. Ce sont qui suivent le lien dans la page qu'il faut bloquer. Mais ca ne bloque que les robots qui aspire l'entièreté du site, pas ceux qui ne piquent que quelques pages.
 

noren

WRInaute accro
Oui pour le script qui se base sur les 30 pages par seconde, j'ai pas pris le risque de m'en servir. je trouve en effet que le critère utilisé est bien trop instable et peu sûr.

J'avais également vu cette solution de créer une page piège en noindex/nofollow et bannir toutes les IP qui viennent y faire un tour. Mais somme nous certains que google n'ira vraiment pas? :)

Est-ce une méthode que tu utilises?
 

3ul3r

WRInaute discret
Sérieusement, il y a encore des gens qui font "clic droit / copier" au lieu de faire CTRL+C ?

Je n'ai jamais compris l'intérêt de bloquer le clic droit oO
 

Reeon

Nouveau WRInaute
Personnellement je me suis fait repomper l'intégralité de mon site par un Français vivant à l'étranger. Je sais qui sait et le type s'est carrément payé ma tête quand je lui ai dis qu'il y aurait des conséquences et que le plagiat ne se limitait pas à un copier/coller.

Et ben vous savez quoi ? Il a eu bien raison de se foutxe de moi. J'ai porté plainte auprès de Google via leur procédure et je peux vous garantir, après avoir passer un après-midi entier dessus, que ça ne sert à rien du tout. GG s'en tape complètement.

La vérité, c'est qu'à ce jour les plaggieurs ont de très très très beaux jours devant eux pour peu qu'ils prennent la peine de payer des mecs pour reformuler les articles de vos sites. A tel point que je vais m'y mettre aussi je pense (en repompant des sites à succès anglosaxons).

Après trois ans à bosser comme un bagnard sur internet, si j'ai bien tirer deux conclusions c'est:

1) Google est un gigantesque dirty business et une usine à rêves.
2) Rien ne sert de bosser, autant réutiliser le travail des autres

C'est triste mais c'est comme ça. Les mecs qui pensent qu'il est possible de gagner sa croûte sur le web en étant honnêtes sont les dindons de la farce. Il faut engager des rédacteurs, repomper le best of made in USA, payer des Indiens pour faire un solide link building et avoir un site parfaitement optimisé On Page. Là, oui il y a des sous à la clé mais en dehors de ça... In your dreams !
 

ybet

WRInaute accro
3ul3r a dit:
Sérieusement, il y a encore des gens qui font "clic droit / copier" au lieu de faire CTRL+C ?

Je n'ai jamais compris l'intérêt de bloquer le clic droit oO

Euh, je pense que tu est un peu en retard :mrgreen: Essaye sur -www.materiel-informatique pour le plaisir ... Sur certaines pages, il y a aussi NOCACHE ... mais même sans ca devient difficile, surtout avec les htaccess derrière (il grandit de jours en jours) et l'interdiction sans javascript activé. J'ajoute une petite protection pour les images (toujours en htaccess).

OK, la première fois qu'on m'a dis sur ce forum que je finirais par m'en prendre une avec Google, ca doit bien dater de mes premiers bricolages en 98.

Pourtant, je suis en développement d'un antiaspirateur qui devrait plutôt être efficace pour ceux-là mais aussi pour un paquet d'autres parasites (y compris pour les one-shot de pages de l'extérieur).
 

Discussions similaires

Haut