| |
|
Voir le sujet précédent :: Voir le sujet suivant
|
| Auteur |
Message |
| |
|
Renardrouge Nouveau WRInaute
Inscrit le: 19 Nov 2002 Messages: 49 Localisation: France
|
Posté le : Lun Jan 27, 2003 23:14 Sujet du message: Script php Anti aspirateur. |
|
|
Hello les webmasters,
J'ai un petit script php anti aspirateur pour ceux que ca interessent éventuellement:
C'est léger:
- 30 lignes de codes
- 3 requetes Mysql.
Ca fait quoi:
- Ca bloque les adresses IP qui demandent des pages php a un trop grand ryhtme (beaucoup plus qu'un visiteur normal).
- ce n'est en rien basé sur les user agent/robots.txt car tous les aspirateurs permettent de faire n'importe quoi.
Ca ne bloque pas les robots:
- google est passé hier chez moi sans problème, deepindex aussi, scooter aussi.... bon je les connais pas tous mais aucun robot n'a été arrété, car les robots ne font pas des accès bourrins sur les sites (au contraire des aspirateurs qui sont hyperviolents dans le genre)..
Ca marche:
- jusqu'a maintenant il a bloqué: Téléport pro/ Httrack / Memoweb / Webreaper / Offline Explorer. Ca marche logiquement avec les autres aussi.
(je mettrais l'adresse s'il y a de demande, ou 1 mp et je vous envoie l'url).
Vos commentaires sur le sujet (pour ceux que ca interessent bien sur) sont les rudement bienvenus pour l'améliorer encore.
EDIT du 18/7: je mets l'url ca m'évite de répondre en privé au mp qui me le demande toujours de temps à autre: http://www.1001bd.com/stop_aspirateurs
Pour infos: Des liens commencent à aparaitre sur les sites de ressources pour webmaster, il est présent sur 01.net, sur le support d'amen.fr et il devrait être reppris sur le CD dans quelques magazines spécialisés. Si vous le voyez envoyez moi un scan du mag, ca me fera toujours plaisir. 
Dernière édition par Renardrouge le Ven Juil 18, 2003 1:34; édité 1 fois |
|
| |
|
 |
Nitou WRInaute passionné

Inscrit le: 01 Déc 2002 Messages: 928 Localisation: France
|
Posté le : Mar Jan 28, 2003 0:35 Sujet du message: Script php Anti aspirateur. |
|
|
ca m'interesse  |
|
| |
|
 |
Monique WRInaute accro

Inscrit le: 16 Sep 2002 Messages: 1544 Localisation: Belgique (à côté de Mons)
|
Posté le : Mar Jan 28, 2003 1:30 Sujet du message: Script php Anti aspirateur. |
|
|
Bonsoir,
Suis-je naïve... en quoi un aspirateur peut-il être une plaie ?
Avant d'avoir l'ADSL, je me demande comment j'aurais pu faire sans pour utiliser les sites avec des cours, dossiers... |
|
| |
|
 |
Nitou WRInaute passionné

Inscrit le: 01 Déc 2002 Messages: 928 Localisation: France
|
Posté le : Mar Jan 28, 2003 1:43 Sujet du message: Script php Anti aspirateur. |
|
|
| Et bien les aspirateurs comme leur nom l'indique, aspire le site web, pas seulement une page, le plus souvent, le site complet, et parfois le site peut faire beaucoup de mégas-octets, imaginez que tout le monde aspire votre site... l'hebergeur qui souvent limite le transfert de données fait payer le surplus... voila en quoi c'est génant. |
|
| |
|
 |
Kmacleod WRInaute accro

Inscrit le: 28 Nov 2002 Messages: 3417
|
Posté le : Mar Jan 28, 2003 2:07 Sujet du message: Script php Anti aspirateur. |
|
|
Les aspirateurs consomment de la bande passante, ou des hits mais n'apportent rien en terme de visite, surtout si c'est pour aspirer des adresses mails dans le but de faire du spam (envoil d'emails non désirés)
Un script php c'est bien, mais celà peut aussi être fait avec un fichier .htaccess (Voir la réponse de Dan)
Ce script serait donc bien pour ceux qui n'ont pas acces au fichier .htaccess (hergement gratuit ou mutualisés généralement, free, lycos; ifrance, wanadoo ...) |
|
| |
|
 |
Monique WRInaute accro

Inscrit le: 16 Sep 2002 Messages: 1544 Localisation: Belgique (à côté de Mons)
|
Posté le : Mar Jan 28, 2003 2:08 Sujet du message: Script php Anti aspirateur. |
|
|
| Nitou a écrit: |
| Et bien les aspirateurs comme leur nom l'indique, aspire le site web, pas seulement une page, le plus souvent, le site complet |
Evidemment... il ne me serait jamais venu à l'idée d'aspirer un site complet, mais si certains le font, effectivement ce doit être pénalisant. |
|
| |
|
 |
Jocelyn WRInaute passionné

Inscrit le: 06 Nov 2002 Messages: 565 Localisation: A la chasse au GoogleBot !
|
Posté le : Mar Jan 28, 2003 8:50 Sujet du message: Script php Anti aspirateur. |
|
|
Bonjour,
je viens de voter. J'ai coché "Les aspirateurs de sites sont très pratiques", cependant je voulais complèter ma réponse.
Je pense que c'est très pratique pour un utilisateur, ça évite de faire "Enregistrer" sur chaque page.
Cependant, pour le webmaster et celui qui gère le serveur, ça peut créer plein de problèmes :
- gaspillage de bande passante
- vol de contenu grandement facilité
...
Comme le dit Monique, j'utilisais régulièrement un aspirateur de sites lorsque je n'avais qu'une connexion modem. Evidemment, je l'utilisais intelligemment, de façon à disposer offline des quelques pages qui m'intéressaient. Surtout pas pour "pomper" tout un site comme un "bourrin".
Il y a quelques temps, j'avais posté un message sur les aspirateurs d'adresses email. J'ai installé sur mon site un script qui génère un nombre infini de pages web aléatoires remplies avec plein d'adresses email inexistantes. La page qui exécute ce script est interdite d'accès (robots.txt), et n'est accessible que par un lien invisible (il n'y a pas de texte au milieu de la balise A).
Donc les seuls visiteurs sur ces pages sont les aspirateurs très indélicats d'emails ou de pages web. J'ai essayé moi-même d'aspirer mon site, je me suis retrouvé avec des centaines de pages web parasites en quelques minutes. Exactement ce que je voulais
Personnellement, je n'utilise presque plus les aspirateurs de sites, maintenant que j'ai une connexion permanente à Internet. Mieux vaut revisiter la page web pour trouver des informations à jour.
Jocelyn |
|
| |
|
 |
hetzeld WRInaute accro

Inscrit le: 02 Déc 2002 Messages: 2205 Localisation: France - Angleterre
|
Posté le : Mar Jan 28, 2003 9:20 Sujet du message: Script php Anti aspirateur. |
|
|
| Kmacleod a écrit: |
Un script php c'est bien, mais celà peut aussi être fait avec un fichier .htaccess (Voir la réponse de Dan)
Ce script serait donc bien pour ceux qui n'ont pas acces au fichier .htaccess (hergement gratuit ou mutualisés généralement, free, lycos; ifrance, wanadoo ...) |
Kmacleod,
C'est cool de faire ma promo
Il faut reconnaître que la méthode .htaccess a une restriction: de plus en plus de logiciels aspirateurs permettent de définir le USER_AGENT ou de le masquer. Dans ce cas, les règles de réécriture ne fonctionnent pas, sauf pour ceux qui utilisent le logiciel "tel quel".
Peu de méthodes permettent d'arrêter les collecteurs de sites/email "pros" .
Il est aussi relativement facile de temporiser la collecte (selon l'outil utilisé) pour éviter de se faire bloquer par un script tel que celui proposé ici.
Je ne dis pas que les 2 méthodes sont inefficaces, je dis simplement qu'il est quasi impossible de bloquer quelqu'un de déterminé et compétent... mais ces deux qualités ne sont pas représentatives de la majorité
Dan |
|
| |
|
 |
Renardrouge Nouveau WRInaute
Inscrit le: 19 Nov 2002 Messages: 49 Localisation: France
|
Posté le : Mar Jan 28, 2003 10:25 Sujet du message: Script php Anti aspirateur. |
|
|
| Monique a écrit: |
Suis-je naïve... en quoi un aspirateur peut-il être une plaie ?
Avant d'avoir l'ADSL, je me demande comment j'aurais pu faire sans pour utiliser les sites avec des cours, dossiers... |
Voila un petit graphique de l'activité d'un serveur en temps normal et avec un aspirateur qui passe.
A toi de déviner à quel moment passe l'aspirateur (et les dégats qu'il fait):
 |
|
| |
|
 |
Renardrouge Nouveau WRInaute
Inscrit le: 19 Nov 2002 Messages: 49 Localisation: France
|
Posté le : Mar Jan 28, 2003 10:38 Sujet du message: Script php Anti aspirateur. |
|
|
| hetzeld a écrit: |
Il est aussi relativement facile de temporiser la collecte (selon l'outil utilisé) pour éviter de se faire bloquer par un script tel que celui proposé ici.
|
Ben celui là tu as du boulot tout de même. Il est basé sur le nombre de page aspirées dans la dernière minute.
Même avec un très bon aspirateur, configuré au minimum sur 1 seul thread, l'IP se fait vérouiller, et il ne récupère plus que des pages blanches par la suite, le temps qu'il vide sa liste dURL. Je ne dis pas que c'est ultime, mais dans ces conditions aspirer un site important prendra des heures et des heures, ce qui perdra de son intérêt largement.
(et de toute manière comme il aura essayé comme un bourrin le 1er coup, il sera coincé).
Les robots.txt sont complètement inutiles face à eux maintenant, tous les aspi proposent de passer par dessus.
Pareil pour les .htaccess, l'user agent est totalement configurable et se fait passer pour un navigateur classique (quand le gars de mets pas un petit message sympa à la place)  |
|
| |
|
 |
luckyluk WRInaute passionné

Inscrit le: 23 Nov 2002 Messages: 663 Localisation: frontière franco-belge..péruwelz-condé
|
Posté le : Mar Jan 28, 2003 10:47 Sujet du message: Script php Anti aspirateur. |
|
|
oh là
y a 2 pros de la bd dans ce forum (pas moi)
ça vas etre la guerre des places
 |
|
| |
|
 |
ortolojf WRInaute passionné

Inscrit le: 14 Aoû 2002 Messages: 754 Localisation: Paris
|
Posté le : Mar Jan 28, 2003 10:49 Sujet du message: Script php Anti aspirateur. |
|
|
Au risque de passer pour un malappris...
Pour mon site, les aspirateurs ne peuvent charger que les deux liens de la page d'accueil, car toutes les autres pages nécéssitent des paramètres, qui sont fournis manuellement par le visiteur avec une FORM adaptée.
Sur mon site, un gaspirateur peut quasiment rien faire...
Jean Francois Ortolo |
|
| |
|
 |
Renardrouge Nouveau WRInaute
Inscrit le: 19 Nov 2002 Messages: 49 Localisation: France
|
Posté le : Mar Jan 28, 2003 11:00 Sujet du message: Script php Anti aspirateur. |
|
|
| ortolojf a écrit: |
Sur mon site, un gaspirateur peut quasiment rien faire...
|
Effectivement c'est peut-être un peu plus difficile (quoique j'en suis pas certains), mais on ne peut pas contruire tous les sites sur ton modèle de site.
De plus tu as assez peu de page au final, les aspirateurs feront donc pas de gros dégats chez toi.
Quand on utilise un site nuke* et des pages identiques qu'on peut charger avec des paramètres légèrement différents, ou des sessions, c'est la catastrophe. Le truc relit sans arrêt les même pages car il pense que ce ne sont pas les même. |
|
| |
|
 |
Eservice WRInaute accro

Inscrit le: 18 Sep 2002 Messages: 1479
|
Posté le : Mar Jan 28, 2003 13:40 Sujet du message: Script php Anti aspirateur. |
|
|
| Renardrouge a écrit: |
| J'ai un petit script php anti aspirateur pour ceux que ca interessent |
Ca ne gêne pas le google full crawl ( beaucoup plus de requête que le daily crawl ) ? Si non, ton script m'interresse
| Jocelyn a écrit: |
Il y a quelques temps, j'avais posté un message sur les aspirateurs d'adresses email. J'ai installé sur mon site un script qui génère un nombre infini de pages web aléatoires remplies avec plein d'adresses email inexistantes. La page qui exécute ce script est interdite d'accès (robots.txt), et n'est accessible que par un lien invisible (il n'y a pas de texte au milieu de la balise A).
Donc les seuls visiteurs sur ces pages sont les aspirateurs très indélicats d'emails ou de pages web. J'ai essayé moi-même d'aspirer mon site, je me suis retrouvé avec des centaines de pages web parasites en quelques minutes. Exactement ce que je voulais
|
excellent pour saturer les bases des spammeurs
As-tu eu des visites sur ces trap pages ? |
|
| |
|
 |
WebRankInfo Administrateur du site

Inscrit le: 19 Avr 2002 Messages: 13836 Localisation: Toulouse
|
Posté le : Mar Jan 28, 2003 14:35 Sujet du message: Script php Anti aspirateur. |
|
|
| ortolojf a écrit: |
Au risque de passer pour un malappris...
Pour mon site, les aspirateurs ne peuvent charger que les deux liens de la page d'accueil, car toutes les autres pages nécéssitent des paramètres, qui sont fournis manuellement par le visiteur avec une FORM adaptée.
Sur mon site, un gaspirateur peut quasiment rien faire...
Jean Francois Ortolo |
Alors comment font les robots des moteurs pour indexer ton site ? |
|
| |
|
 |
| |
|
|
|
|
Autres sujets de discussion :
Définitions :
|
|