Les bots utilisent-ils des proxies ?

WRInaute accro
Bonjour

J'ai déjà mis en place sur mon site ( voir profil ), un filtrage par url reverse er fréquences de visites.

J'aimerais bien filtrer aussi les accès par proxy, puisque mes filtrages se font en grande partie, d'après les adresses ip.

Merci de me dire, si un filtrage par .htaccess du type ci-dessous, serait susceptible d'empêcher le bon référencement de mon site. ;(

RewriteEngine on
RewriteCond %{HTTP:VIA} !^$ [OR]
RewriteCond %{HTTP:FORWARDED} !^$ [OR]
RewriteCond %{HTTP:USERAGENT_VIA} !^$ [OR]
RewriteCond %{HTTP:X_FORWARDED_FOR} !^$ [OR]
RewriteCond %{HTTP:pROXY_CONNECTION} !^$ [OR]
RewriteCond %{HTTP:XPROXY_CONNECTION} !^$ [OR]
RewriteCond %{HTTP:HTTP_PC_REMOTE_ADDR} !^$ [OR]
RewriteCond %{HTTP:XROXY_CONNECTION} !^$ [OR]
RewriteCond %{HTTP:X-FORWARDED-FOR} !^$ [OR]
RewriteCond %{HTTP:HTTP_CLIENT_IP} !^$ [OR]
RewriteCond %{HTTP:FORWARDED-FOR} !^$ [OR]
RewriteCond %{HTTP:X-FORWARDED} !^$
RewriteRule ^(.*)$ - [F]


Ou, autrement dit, s'il se peut que l'une de ces variables soit alimentée lors d'une visite d'un bot.

Dans ce cas, que faire pour à la fois, filter les proxies, et acepter les bots ?

Merci beaucoup de vos réponses.

Bien amicalement.

Jean François Ortolo
 
WRInaute accro
Rebonjour

J'ai fait quelques erreurs de typo dans le script.

Voici le bout d e.htaccess corrigé :

RewriteEngine on
RewriteCond %{HTTP:VIA} !^$ [OR]
RewriteCond %{HTTP:FORWARDED} !^$ [OR]
RewriteCond %{HTTP:USERAGENT_VIA} !^$ [OR]
RewriteCond %{HTTP:FORWARDED-FOR} !^$ [OR]
RewriteCond %{HTTP:X_FORWARDED_FOR} !^$ [OR]
RewriteCond %{HTTP:X-FORWARDED} !^$
RewriteCond %{HTTP:pROXY_CONNECTION} !^$ [OR]
RewriteCond %{HTTP:XPROXY_CONNECTION} !^$ [OR]
RewriteCond %{HTTP:HTTP_PC_REMOTE_ADDR} !^$ [OR]
RewriteCond %{HTTP:HTTP_CLIENT_IP} !^$
RewriteRule ^(.*)$ - [F]


Merci beaucoup de me dire, si celà risque de bloquer des bots Google ou autres. ;)

Jean François Ortolo
 
WRInaute impliqué
en tout cas tu bloques l'accès aux personnes qui sont dans des entreprises, derrière un proxy
 
WRInaute accro
zeb a dit:
ortolojf a dit:
Merci beaucoup de me dire, si celà risque de bloquer des bots Google ou autres. ;)
Outil GWT -> "Explorer comme Google" = tu as ta réponse.


Bonjour zeb

Le problème, c'est que certains bots de Google, peuvent passer par des proxies, et d 'autres non.

Avec le GWT, il peut y avoir des faux négatifs,c 'est-à-dire sans proxy, tandis que d'autres bots de Google, soient "proxifiés". ;)

Merci baucoup de ta réponse.

JFO

P.S. ;) Tiens, moi aussi je m'y met ;) JFO après WRI ;)

Sur mon site, un logo marqué JFO, çà ne me parraitrait pas crédible. ;)
 
WRInaute accro
madri2 a dit:
en tout cas tu bloques l'accès aux personnes qui sont dans des entreprises, derrière un proxy


Bonjour madri2 ;)

Des bunissessmen ? ;)

Les employés ne sont pas censés visiter des sites de Turf aux heures de travail...

Mon problème, c'est surtout de filtrer les accès par des sites externes pompant mes données.

Merci beaucoup de ta réponse.

Très respectueusement.

Jean François Ortolo
 
WRInaute accro
zeb a dit:
ortolojf a dit:
Merci beaucoup de me dire, si celà risque de bloquer des bots Google ou autres. ;)
Outil GWT -> "Explorer comme Google" = tu as ta réponse.


Rebonjour zeb ;)

J'ai la réponse, mais elle est très certainement incomplète, voire fausse.

Le bot Google de GWT visite bien la page que j'ai tnterdite aux proxies :

http://---.pronostics-courses.fr/php/phpinfo/phpinfo.php

Cependant, ce test ne paraît pas fiable.

Qu'est-ce qui empêcherait d'autres bots de Google que celui-là, d'être derrière des proxies ?

Je suis en train de me renseigner sur le Forum de Google dédié au crawling et l'indexation.

Merci beaucoup de ton aide.

Bien amicalement.

Jean François Ortolo
 
WRInaute accro
ortolojf a dit:
Qu'est-ce qui empêcherait d'autres bots de Google que celui-là, d'être derrière des proxies ?
D'une part physiquement ils sont vraisemblablement tous derrière des proxys, ensuite ils n'ont aucun intérêt a s'annoncer comme des proxys et après comme c'est pas eux que tu vise pose toi la questions de savoir si les vrais proxys que tu vise (ceux qui pompent) ont intérêt a gentiment te dire "je suis un proxy" donc a être sensible aux règles que tu donne.
Perso j'ai fait un test 5mn sur un site et j'ai pris par exemple un proxy anonymiseur pour voir si j'étais jeté et j'ai consulté le site sans souci.

Bref je pense que tu te plonge dans un paradox sans fin. Tu veux éviter le pompage de tes data -> fait des images ça va être plus compliqué pour les lire ...
 
WRInaute accro
zeb a dit:
ortolojf a dit:
Qu'est-ce qui empêcherait d'autres bots de Google que celui-là, d'être derrière des proxies ?
D'une part physiquement ils sont vraisemblablement tous derrière des proxys, ensuite ils n'ont aucun intérêt a s'annoncer comme des proxys et après comme c'est pas eux que tu vise pose toi la questions de savoir si les vrais proxys que tu vise (ceux qui pompent) ont intérêt a gentiment te dire "je suis un proxy" donc a être sensible aux règles que tu donne.
Perso j'ai fait un test 5mn sur un site et j'ai pris par exemple un proxy anonymiseur pour voir si j'étais jeté et j'ai consulté le site sans souci.

Bref je pense que tu te plonge dans un paradox sans fin. Tu veux éviter le pompage de tes data -> fait des images ça va être plus compliqué pour les lire ...


Bonjour zeb

Je te prie de bien vouloir m'excuser de te déranger.

Mon site actuellement, n'est pas filtré contre les proxies.

Seule cette adresse l'est :

www.pronostics-courses.fr/php/phpinfo/phpinfo.php

Merci de me dire si c'est bien cette url que tu as testée.

Bien amicalement.

Jean François Ortolo
 
WRInaute accro
Bonjour

J'ai reçu la réponse de Google sur le Forum Google relatif au crawling et l'indexation.

La réponse, est que celà ne présente pas d'inconvénient pour le crawling, de faire un tel filtrage.

D'autre part, j'ai mis en place cette après-midi, un autre mode de filtrage supplémentaire, censés filtrer lesproxies et les sites distants, d'après leur reverse.

A l'instant : 20 visiteurs simultanés sur mon site, d'après Google Analytlics. ;)

Merci beaucoup à tous pour votre aide.

Bien amicalement.

Jean François Ortolo
 
WRInaute accro
zeb a dit:
ortolojf a dit:
Merci de me dire si c'est bien cette url que tu as testé.
Je n'ai pas testé ce code chez toi mais chez moi.


Bonjour zeb

Effectivement tu as raison, j'ai testé avec deux proxies ultra gratuits et peu anonymes, et ils sont tous passés à travers.

Maitenant, reste à savoir si ces proxies en contenaient pas la page dans leur cache... ;)

J'ai ajouté à l'instant, ce dernier mode filtrage par le reverse, j'ai déjà reçu deux mail, dont un me signalant un site ( opera.com ), et l'autre un fai Marocain, que j'ai immédiatement retiré de mon filtrage. ;)

Bien amicalement.

Jean François Ortolo
 
WRInaute accro
ortolojf a dit:
Maitenant, reste à savoir si ces proxies en contenaient pas la page dans leur cache... ;)
On est jamais sur de rien mais je ne pense pas que ce fut le cas pour le test que j'ai fait car la page testée qui est mise a jour 3/4 fois par jour avait a peine une heure (faudrait vraiment avoir pas de chance pour tester un proxy qui viens justement de consulter ton site dans l'heure, bref peu probable).
Peut tu détailler le type de données que tu souhaite protéger ? c'est quoi au juste du texte des chiffres ?
 
WRInaute accro
zeb a dit:
ortolojf a dit:
Maitenant, reste à savoir si ces proxies en contenaient pas la page dans leur cache... ;)
On est jamais sur de rien mais je ne pense pas que ce fut le cas pour le test que j'ai fait car la page testée qui est mise a jour 3/4 fois par jour avait a peine une heure (faudrait vraiment avoir pas de chance pour tester un proxy qui viens justement de consulter ton site dans l'heure, bref peu probable).
Peut tu détailler le type de données que tu souhaite protéger ? c'est quoi au juste du texte des chiffres ?


Bonjour zeb ;)

Simplement, les pages de statistiques et pronostics des courses du lendemain, du soir et/ou de la veille, et aussi les résultats et rapports ( pmu et zeturf ) des courses passées, compte tenu du fait qu'il est très facile de naviguer dans mon site de manière automatique, et donc de "pomper" toute ma base de données.

Toutes les courses depuis le 1er Janvier 2000... ;)

Les stats sont sous forme tabulaire ( dans le code html ), et les pronostics aussi.

Cependant, les pronostics sont affichés par un script lancé en iframe, et je pourrais effectivement facilement, empêcher qu'ils ne soient copiés.

Ces scritps lancés en iframe, ont un paramètre spécifique ( je n'en dis pas plus ), qui doit correspondre pour que les pronostics s'affichent

Je peux réfléchir à la possibilité de les rendre incopiables, mais j'en doute.

Surtout, je n'aimerais pas, que d'autres sites copient mes pronos et stats pour les incorporer à leurs propres sites, celà me fait de la concurrence... ;)

Pour ce qui est du filtrage hors proxy, c'est déjà fait, pas parfaitement mais suffisant ( à mon avis ).

Il ne reste plus que les proxies à filtrer.

Depuis ce soir, j'interdis aux urls reverse contenant le mot "proxy", d'accéder à monsite. ;)

En ce qui concerne les sites copieurs, c'est vrai que je ne peux même pas savoir s'il y en a beaucoup, à part les quelques que j'ai reprérés et filtrés.

Quand un intrus s'amène sur mon site je reçois un mail m'indiquant se coordonnées : adresse ip, url reverse, user agent...

Quant à la possibilité de présenter mon site sous forme d'images, pour le référencement bonsoir... ;(

Merci beaucoup de ton aide.

Jean François Ortolo
 
WRInaute accro
ortolojf a dit:
Les stats sont sous forme tabulaire ( dans le code html ), et les pronostics aussi.
ça doit être ce que j'ai pu voir sur ton site, pourquoi de pas convertir les chiffres en image pas traçable genre capchka ? c'est lisible pour un humain mais les bots vont pas pouvoir prendre tes chiffres et les mettre en base comme des brutes sans se casser le c*l.
Voir pire encore servir tes pages de stat avec des chiffres bidons et les remplacer par les bons a la volé en javascript côté client (avec un script polymorphe) ça peut être amusant pour les copieurs :D
 
WRInaute accro
zeb a dit:
ortolojf a dit:
Les stats sont sous forme tabulaire ( dans le code html ), et les pronostics aussi.
ça doit être ce que j'ai pu voir sur ton site, pourquoi de pas convertir les chiffres en image pas traçable genre capchka ? c'est lisible pour un humain mais les bots vont pas pouvoir prendre tes chiffres et les mettre en base comme des brutes sans se casser le c*l.
Voir pire encore servir tes pages de stat avec des chiffres bidons et les remplacer par les bons a la volé en javascript côté client (avec un script polymorphe) ça peut être amusant pour les copieurs :D


Bonsoir zeb ;)

Ce soir, j'ai essayé de rendre mes pronostics non copiables.

En gros, quand une page est chargée, elle détruit tous les pronostics plus vieux que 2 secondes. ;)

En ce qui concerne le Javascript, je me méfie, car il y a des visiteurs avec Javascript désactivé... ;(

Changer les chiffres des stats en captcha, c'est faisable, mais j'aurais des diifficultés pour choisir la police des caractères.

Je vais voir le PHP Manual par rapport à l'utilisation des polices TrueType pour la librairie gd2.

Je peux sinstaller sur mon VPS cette librairie TrueType, si elle n'existe pas.

Ce délai de 2 secondes après lequel les pronos ne sont plus dispo sur la page, cest peut-être trop court pour les modems téléphoniques des pays : Afrique, ou autres...

De toute façon, encore faut-il qu'une autre page se charge au bon moment, pour que le prono disparaisse, alors... ;(

J'adapterai ce délai en fonction des mails que je recevrai. ;)

Merci beaucoup de ton aide. ;)

Chaleureusement.

Jean François Ortolo
 
Discussions similaires
Haut