Formation Google AnalyticsSavez-vous bien utiliser les outils de mesure d'audience ?
Effectuez-vous un calcul de ROI (Retour sur investissement) pour savoir comment améliorer vos campagnes emarketing ?
Savez-vous utiliser les bons outils pour booster votre taux de transformation ?
La formation Web Analytics de Ranking Metrics, présentée par un expert reconnu officiellement par Google Analytics, vous apportera les réponses à toutes vos questions !
===> Informations et inscriptions.

Detection robots SPAM

Poster un nouveau sujet Imprimer cette discussion    Forum -> Développement d'un site Web   Les dernières discussions de ce forum sont disponibles au format RSS
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
 
Selection A
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 14 Mar 2005
Messages: 249
Localisation: Paris

URL permanente de ce messagePosté le : Mer Jan 09, 2008 19:19    Sujet du message: Detection robots SPAM

Bonjour,

Pour mon site, je suis en train de développer une sorte de tag cloud car les solutions clés en mains ne me satisfaisaient pas!

En gros lors de visite sur certaines pages de mon site, j'execute une requete SQL INSERT permettant d'enregistrer un "tag".

Il m'a été facile d'empécher l'execution de cette requete SQL par les robots des grands moteurs de recherches (détection via HTTP_USER_AGENT).

Mais en consultant ma table SQL de tag je me suis appercut d'un nombre considérable de lignes venant de robots SPAMMEUR (date des insert proches, ip différentes, user agent modifié pour approché ceux des naigateur).

Avez-vous des idées pour détecter automatiquement ces robots SPAMMEUR ?
 
Selection A Visiter le site web du posteur
Leonick
WRInaute accro
WRInaute accro

Inscrit le: 08 Aoû 2004
Messages: 8800
Localisation: Val de Marne

URL permanente de ce messagePosté le : Mer Jan 09, 2008 23:49    Sujet du message: Re: Detection robots SPAM

Selection A a écrit:
En gros lors de visite sur certaines pages de mon site, j'execute une requete SQL INSERT permettant d'enregistrer un "tag".
c'est quoi le tag ? la requête effectuée ?
 
Leonick Visiter le site web du posteur
Selection A
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 14 Mar 2005
Messages: 249
Localisation: Paris

URL permanente de ce messagePosté le : Jeu Jan 10, 2008 10:49    Sujet du message: Detection robots SPAM

Le "tag" est un mot clé présent dans l'adresse web de la page !

Ma requete sql insert dans une table le date, le tag, l'adresse et le user agent .
 
Selection A Visiter le site web du posteur
Leonick
WRInaute accro
WRInaute accro

Inscrit le: 08 Aoû 2004
Messages: 8800
Localisation: Val de Marne

URL permanente de ce messagePosté le : Jeu Jan 10, 2008 11:28    Sujet du message: Detection robots SPAM

en clair, c'est un mini système de stats, c'est ça ?
dont tu as déjà exclu des robots (user agents connus) et tu voudrais exclure aussi les robots spammeurs.
2 solutions :
bloquer par rapport à une certaine vitesse de crawl
mettre un lien vers une page bloquée par robots.txt et si cette page est demandée, bloquer l'ip
 
Leonick Visiter le site web du posteur
Selection A
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 14 Mar 2005
Messages: 249
Localisation: Paris

URL permanente de ce messagePosté le : Jeu Jan 10, 2008 11:56    Sujet du message: Detection robots SPAM

Leonick a écrit:
en clair, c'est un mini système de stats, c'est ça ?


Oui un mini système de stat utiles pour les internautes

Leonick a écrit:
bloquer par rapport à une certaine vitesse de crawl


Difficile à faire car j'ai déja mis en place un bloquage par vitesse de crawl basé sur l'adresse ip (en gros pour bloquer le multi rafraichissement) mais le problème de ces robots c est qu'ils ont une adresse ip qui change tout le temps

Leonick a écrit:
mettre un lien vers une page bloquée par robots.txt et si cette page est demandée, bloquer l'ip


Je suis pas sur d'avoir compris... En plus je pense que ces type de robots ce moque pas mal du fichier robots.txt

Le problème du bloquage par ip est de connaitre la plage d'ip à bloquer Confused

Si d'ailleurs vous avez une sorte de liste d'adresse ip à bannir ???
 
Selection A Visiter le site web du posteur
Leonick
WRInaute accro
WRInaute accro

Inscrit le: 08 Aoû 2004
Messages: 8800
Localisation: Val de Marne

URL permanente de ce messagePosté le : Jeu Jan 10, 2008 12:22    Sujet du message: Detection robots SPAM

Selection A a écrit:
Leonick a écrit:
mettre un lien vers une page bloquée par robots.txt et si cette page est demandée, bloquer l'ip


Je suis pas sur d'avoir compris... En plus je pense que ces type de robots ce moque pas mal du fichier robots.txt
d'où justement son intérêt.
Tu mets un lien sur ta page d'accueil vers paslire.html en indiquant (ne pas suivre ce lien - pour l'internaute) et tu bloques paslire.html dans robots.txt
le robot spammeur va suivre tous les liens de la page et, ne s'occupant pas de robots.txt, va lire ta page paslire.html et là, tu bloques l'ip Twisted Evil
 
Leonick Visiter le site web du posteur
Selection A
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 14 Mar 2005
Messages: 249
Localisation: Paris

URL permanente de ce messagePosté le : Jeu Jan 10, 2008 12:37    Sujet du message: Detection robots SPAM

ok j'ai compris. C'est la bonne vieille technique du pot de miel !

Par contre j'aime pas trop l'idée d'un lien sur la page d'accueil... Faudrait trouver une solution transparente pour l'utilisateur mais mes connaissances avec robots.txt sont limités.

Dans un script php je met :
Code:
include("mapage.php");

et dans mon robots.txt je met :
Code:
Disallow:  /mapage.php


Est ce que les robots "gentils" vont lire mapage.php ?
 
Selection A Visiter le site web du posteur
Dan_A
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 21 Déc 2005
Messages: 155

URL permanente de ce messagePosté le : Jeu Jan 10, 2008 12:52    Sujet du message: Detection robots SPAM

En utilisant
User-Agent: *
Disallow: /mapage.php
les robots bien élevés ne doivent pas parcourir la page.
Malheureusement, Yahoo version 3 et d'autres vont la lire...
Pour les robots spammeurs, de toutes façons, cela ne sert à rien puisqu'ils ne consultent pas robots.txt
De plus, ils utilisent des proxies.
La détection automatique est risquée et difficile.
Une méthode assez efficace pour éviter ces robots, c'est de rediriger la requête vers la page après avoir initialisé un cookie ou une variable de session quand l'User Agent n'est pas celui d'un robot connu.
Ces robots n'acceptent pas d'être redirigés.
 
Dan_A
Selection A
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 14 Mar 2005
Messages: 249
Localisation: Paris

URL permanente de ce messagePosté le : Jeu Jan 10, 2008 12:54    Sujet du message: Detection robots SPAM

Dan_A a écrit:
Une méthode assez efficace pour éviter ces robots, c'est de rediriger la requête vers la page après avoir initialisé un cookie ou une variable de session quand l'User Agent n'est pas celui d'un robot connu.


Tu peux etre plus claire je n'ai pas compris Sad
 
Selection A Visiter le site web du posteur
e-kiwi
Modérateur
Modérateur

Inscrit le: 23 Déc 2003
Messages: 12363
Localisation: Toulouse

URL permanente de ce messagePosté le : Jeu Jan 10, 2008 13:19    Sujet du message: Detection robots SPAM

http://www.webrankinfo.com/robots.txt Smile
 
e-kiwi Visiter le site web du posteur
 
Montrer les messages depuis:   
Revenir en haut    Forum -> Développement d'un site Web Toutes les heures sont au format GMT + 2 Heures
Page 1 sur 1 - 
Connexion
Nom d'utilisateur:    Mot de passe:      Se connecter automatiquement à chaque visite    

CLIQUEZ ICI pour vous inscrire à WebRankInfo (forum, annuaire, outils...)

Connexion

© 2001-2005 phpBB Group, support français
Personnalisation : WebRankInfo ™


 ODP  Firefox  Alsacreations  annuaire webmaster Yagoort