Formation par Olivier Duffez

Formation au référencement par Olivier Duffez, créateur de WebRankInfo !
Une formule efficace alliant théorie et pratique, avec une haute disponibilité des intervenants
Cette formule a déjà convaincu plusieurs centaines d'entreprises, pourquoi pas vous ?
Réservez vite votre place en ligne (convention possible pour imputer sur le budget formation)

Formation référencement Marseille

Interdire tous les robots sauf quelques uns

Poster un nouveau sujet Imprimer cette discussion    Forum -> Débuter en référencement   Les dernières discussions de ce forum sont disponibles au format RSS
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
 
El Bono
WRInaute discret
WRInaute discret

Inscrit le: 01 Sep 2004
Messages: 88

URL permanente de ce messagePosté le : Lun Avr 14, 2008 16:00    Sujet du message: Interdire tous les robots sauf quelques uns

Ca y est, je craque ! J'en ai assez, j'en peux plus...

Je m'explique : mon site contient une base de données d'environ 4000 entrées constamment remis à jour (plusieurs fois par jour) avec des enregistrements ajoutés et/ou supprimés (plus de 200 par jour).

Cette BDD représente un enjeux commercial pour plusieurs sociétés. Des petits malins ont recemment eu la bonne idée de "pomper" (indexer) mon site plusieurs fois par jour pour rapatrier les données dans leur propre index. Je ne connais evidemment pas les technologies utilisées... mais ca tire beaucoup sur ma bande passante parce que c'est fait en général en plein milieu de l'après midi !

Je voudrais savoir :
1. s'il est possible d'interdire ces indexations sauvage au moyens de robots.txt (je ne connais pas la technologie utilisée par les "pompeurs") ?
2. si oui, comment parmétreriez-vous le contenu de robots.txt sachant que je ne désire que l'indexation de Google, Yahoo et MSN et que je veux me prémunir de n'importe quel autre Bot ?

J'avais pensé à quelque chose comme ça :
Code:
User-Agent: Googlebot
Disallow :
User-Agent: Slurp
Disallow :
User-Agent: MSNBot
Disallow :
User-Agent: *
Disallow: /
 
El Bono
webmasterlamogere
WRInaute accro
WRInaute accro

Inscrit le: 17 Déc 2006
Messages: 1782
Localisation: urlrewriting.fr

URL permanente de ce messagePosté le : Lun Avr 14, 2008 16:14    Sujet du message: Interdire tous les robots sauf quelques uns

c'est surement pas par le fichier robots.txt que tu va bloquer des voleurs de contenu : il ne le consulte surement pas. il faut passer par un fichier .htaccess
il faut regarder tes log pour déterminer l'adresse IP des serveurs qui récupèrent le contenu et les bloquer.
le risque est qu'ils changent d'ip une fois démasqués.
 
webmasterlamogere Visiter le site web du posteur
webmasterlamogere
WRInaute accro
WRInaute accro

Inscrit le: 17 Déc 2006
Messages: 1782
Localisation: urlrewriting.fr

URL permanente de ce messagePosté le : Lun Avr 14, 2008 16:25    Sujet du message: Interdire tous les robots sauf quelques uns

un petit lien qui peut t'aider : http://www.toulouse-renaissance.net/c_outils/c-exclure-ip.htm
 
webmasterlamogere Visiter le site web du posteur
El Bono
WRInaute discret
WRInaute discret

Inscrit le: 01 Sep 2004
Messages: 88

URL permanente de ce messagePosté le : Lun Avr 14, 2008 16:29    Sujet du message: Interdire tous les robots sauf quelques uns

Merci webmasterlamogere.

Ton lien est très interessant et je vais utiliser cette méthode qui me parait excellente.

Mais j'ai oublié de préciser que je souhaitais aussi interdire le robot de Voila qui revient lui aussi x fois par jour !!
 
El Bono
medium69
WRInaute accro
WRInaute accro

Inscrit le: 07 Mai 2005
Messages: 2157
Localisation: Je sais pas trop ;)

URL permanente de ce messagePosté le : Mar Avr 15, 2008 6:32    Sujet du message: Interdire tous les robots sauf quelques uns

un truc dans ce genre alors :

Code:
# ---------------------------------------------
# Blocage des aspirateurs et de certains robots
# ---------------------------------------------
RewriteCond %{REQUEST_URI} !^/robots.txt
RewriteCond %{REQUEST_URI} !^/sitemap.xml
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} libwww-perl [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ImageWalker [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ShopWiki [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Twiceler-0.9 [NC,OR]
RewriteCond %{HTTP_USER_AGENT} VoilaBot [NC,OR]
RewriteCond %{HTTP_REFERER} http://(www.)?127.0.0.1* [NC,OR]
RewriteCond %{HTTP_REFERER} http://(www.)?example.com*
RewriteRule ^.*$ - [NC,F,L]
 
medium69 Visiter le site web du posteur
El Bono
WRInaute discret
WRInaute discret

Inscrit le: 01 Sep 2004
Messages: 88

URL permanente de ce messagePosté le : Mar Avr 15, 2008 8:11    Sujet du message: Interdire tous les robots sauf quelques uns

Merci Medium 69.
 
El Bono
medium69
WRInaute accro
WRInaute accro

Inscrit le: 07 Mai 2005
Messages: 2157
Localisation: Je sais pas trop ;)

URL permanente de ce messagePosté le : Mar Avr 15, 2008 11:18    Sujet du message: Interdire tous les robots sauf quelques uns

Le bout de script que je te donne autorise tout le monde à lire le robots.txt, le sitemap, mais interdit tout le reste.

soit par le user agent pour les robot indésirable... ou ceux qui génère trop de 404 (voila par exemple).
soit par le referer pour interdire les indésirables
 
medium69 Visiter le site web du posteur
 
Montrer les messages depuis:   
Revenir en haut    Forum -> Débuter en référencement Toutes les heures sont au format GMT + 1 Heure
Page 1 sur 1 - 
Connexion
Nom d'utilisateur:    Mot de passe:      Se connecter automatiquement à chaque visite    

CLIQUEZ ICI pour vous inscrire à WebRankInfo (forum, annuaire, outils...)

Connexion

© 2001-2005 phpBB Group, support français
Personnalisation : WebRankInfo ™


 ODP  Firefox  Alsacreations  annuaire webmaster Yagoort