Formation par Olivier Duffez

Formation au référencement par Olivier Duffez, créateur de WebRankInfo !
Une formule efficace alliant théorie et pratique, avec une haute disponibilité des intervenants
Cette formule a déjà convaincu plusieurs centaines d'entreprises, pourquoi pas vous ?
Réservez vite votre place en ligne (convention possible pour imputer sur le budget formation)

Formation référencement Marseille

comment savoir quels bot refuser ?

Poster un nouveau sujet Imprimer cette discussion    Forum -> Débuter en référencement   Les dernières discussions de ce forum sont disponibles au format RSS
Voir le sujet précédent :: Voir le sujet suivant  
Auteur Message
 
caviar
WRInaute discret
WRInaute discret

Inscrit le: 05 Sep 2006
Messages: 63

URL permanente de ce messagePosté le : Mar Sep 05, 2006 12:31    Sujet du message: comment savoir quels bot refuser ?

salut ..;
je me penche en ce moment sur la question des robots.txt
j'en ai étudié quelques uns et j'ai relevé une liste de bot Disalowed ....
bon maintenant comment savoir si c'est bien ou pas de désactiver ces robots ?
je vous laisse la liste ci dessous
dites moi ce que vous en pensez Wink

Code:
#
#   Fichier de definition des droits d'acces des robots Web
#
User-agent: *            # pour tous les robots
Disallow: /cgi-bin/
Disallow: /css/
Disallow: /sessions/

##########  Tous ceux qu'on veut interdire...  ##########

User-agent: Slurp
Crawl-delay: 20

User-agent: girafa
User-agent: girafabot
User-agent: NPBot
User-agent: NG
User-agent: Exalead
User-agent: http://www.almaden.ibm.com/cs/crawler
User-agent: Art-Online
User-agent: MSNBOT
User-agent: msnbot
User-agent: Intelliseek
User-agent: turnitinbot
User-agent: Bumblebee@relevare.com
User-agent: QuepasaCreep
User-agent: quepasa

User-agent: Alexibot
User-agent: asterias
User-agent: BackDoorBot/1.0
User-agent: Black Hole
User-agent: BlowFish/1.0
User-agent: BotALot
User-agent: BuiltBotTough
User-agent: Bullseye/1.0
User-agent: BunnySlippers
User-agent: Cegbfeieh
User-agent: CheeseBot
User-agent: CherryPicker
User-agent: CherryPickerElite/1.0
User-agent: CherryPickerSE/1.0
User-agent: CopyRightCheck
User-agent: cosmos
User-agent: Crescent
User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
User-agent: DISCo Pump 3.1
User-agent: DittoSpyder
User-agent: EmailCollector
User-agent: EmailSiphon
User-agent: EmailWolf
User-agent: EroCrawler
User-agent: ExtractorPro
User-agent: Foobot
User-agent: Harvest/1.5
User-agent: hloader
User-agent: httplib
User-agent: humanlinks
User-agent: InfoNaviRobot
User-agent: JennyBot
User-agent: Kenjin Spider
User-agent: LexiBot
User-agent: libWeb/clsHTTP
User-agent: LinkextractorPro
User-agent: LinkScan/8.1a Unix
User-agent: LinkWalker
User-agent: lwp-trivial
User-agent: lwp-trivial/1.34
User-agent: Mata Hari
User-agent: Microsoft URL Control - 5.01.4511
User-agent: Microsoft URL Control - 6.00.8169
User-agent: MIIxpc
User-agent: MIIxpc/4.2
User-agent: Mister PiX
User-agent: moget
User-agent: moget/2.1
User-agent: NetAnts
User-agent: NetAttache
User-agent: NetAttache Light 1.1
User-agent: NetMechanic
User-agent: NICErsPRO
User-agent: Offline Explorer
User-agent: Openfind
User-agent: Openfind data gathere
User-agent: ProPowerBot/2.14
User-agent: ProWebWalker
User-agent: psbot
User-agent: QueryN Metasearch
User-agent: RepoMonkey
User-agent: RepoMonkey Bait & Tackle/v1.01
User-agent: RMA
User-agent: SiteSnagger
User-agent: SpankBot
User-agent: spanner
User-agent: SuperBot
User-agent: SuperBot/2.6
User-agent: suzuran
User-agent: Szukacz/1.4
User-agent: Teleport
User-agent: Telesoft
User-agent: The Intraformant
User-agent: TheNomad
User-agent: TightTwatBot
User-agent: Titan
User-agent: toCrawl/UrlDispatcher
User-agent: True_Robot
User-agent: True_Robot/1.0
User-agent: turingos
User-agent: URLy Warning
User-agent: VCI
User-agent: VCI WebViewer VCI WebViewer Win32
User-agent: Web Image Collector
User-agent: WebAuto
User-agent: WebBandit
User-agent: WebBandit/3.50
User-agent: WebCopier
User-agent: webcopy
User-agent: WebEnhancer
User-agent: WebmasterWorldForumBot
User-agent: webmirror
User-agent: WebReaper
User-agent: WebSauger
User-agent: website extractor
User-agent: Website Quester
User-agent: Webster Pro
User-agent: WebStripper
User-agent: WebStripper/2.02
User-agent: WebZip
User-agent: WebZip/4.0
User-agent: Wget
User-agent: Wget/1.5.3
User-agent: Wget/1.6
User-agent: WinHTTrack
User-agent: WWW-Collector-E
User-agent: Xenu's
User-agent: Xenu's Link Sleuth 1.1c
User-agent: Zeus
User-agent: Zeus 32297 Webster Pro V2.9 Win32
User-Agent: MJ12bot
User-agent: HTTrack
User-agent: HTTrack 3.0
User-agent: TurnitinBot
User-agent: QuepasaCreep
Disallow: /

Disallow: /

##########  Règles générales  ##########
# A la fin parce qu'on s'arrête au premier qui matche.

# Protège du piège les robots qui se comportent bien.
User-agent: *
Disallow: /informatique/trousansfond/glue/


merciii
@+
 
caviar
finstreet
WRInaute accro
WRInaute accro

Inscrit le: 10 Juil 2005
Messages: 9538

URL permanente de ce messagePosté le : Mar Sep 05, 2006 12:51    Sujet du message: comment savoir quels bot refuser ?

qu'est ce que t'as contre exalead ?
 
finstreet Visiter le site web du posteur
caviar
WRInaute discret
WRInaute discret

Inscrit le: 05 Sep 2006
Messages: 63

URL permanente de ce messagePosté le : Mar Sep 05, 2006 14:00    Sujet du message: comment savoir quels bot refuser ?

ben justement j'en sais rien ...lol
j'ai repris cette liste à partir de plusieurs fichiers robots.txt ...

(exemple d'un commenté)
Code:


#   Fichier de definition des droits d'acces des robots Web
#
User-agent: *            # pour tous les robots
Disallow: /cgi-bin/
Disallow: /css/
Disallow: /sessions/

##########  Tous ceux qu'on veut interdire...  ##########

# Service payant, windows & IE seulement, affiliés à MSN. Buark.
# Attention, contrairement à ce qu'on pourrait croire en regardant la chaîne
# d'identification du robot, son nom est girafa tout court et pas girafabot.
# En fait ils ne respectent pas la syntaxe du robots.txt!
# <http://www.girafa.com/>
User-agent: girafa
User-agent: girafabot
# Beurk, sales types. Respectent pas le robots.txt en plus.
# <http://www.nameprotect.com/botinfo.html>
User-agent: NPBot
# Affiliés à AOL. Yeck. En plus leur site ne marche pas sans javascript, et
# ils n'ont même pas de doc sur leur robot.
# <http://www.exalead.com/>
User-agent: NG
User-agent: Exalead
# Mouais bof, un truc pour rendre les entreprises plus efficaces. Ceci dit
# ils ne viennent pas souvent.
# Par contre, contrairement à ce qu'ils indiquent, ils ne respectent pas
# cette ligne!
# <http://www.almaden.ibm.com/cs/crawler/>
User-agent: http://www.almaden.ibm.com/cs/crawler
# Seules release depuis décembre 2002 pour Windows, pas moyen d'activer
# l'indexation locale sous Linux, d'autres continuent à venir malgré ma
# demande d'indexation locale? Faut pas me prendre pour une imbécile.
# <http://www.grub.org/>
# User-agent: grub-client
# Respectent pas le robots.txt, mais on les met quand même au cas où ils se
# décideraient à corriger ça.
# Leur robot aspire toutes les pages! En plus ils sont puants et ne se gênent
# pas pour le "faites ce que je dis, pas ce que je fais".
# <http://www.art-online.com/>
User-agent: Art-Online
# Ce site n'appartient pas au merveilleux monde sous contrôle de MSN...
# Voir aussi <http://www.idlewords.com/boycott.pl>.
# <http://search.msn.com/msnbot.htm>
User-agent: MSNBOT
User-agent: msnbot
# Ils sont pas clairs, tant pis pour eux.
# <http://www.intelliseek.com/>
User-agent: Intelliseek
# Une boite qui fait payer pour empêcher le plagiat par les et des étudiants.
# <http://www.turnitin.com/robot/crawlerinfo.html>
User-agent: turnitinbot
# http://www.relevare.com/ est une page vide (javascript, flash), leur
# robot ne s'identifie qu'avec cette adresse mail sans URL => dégage.
User-agent: Bumblebee@relevare.com
# C'est mal documenté et ça ressemble à des spammeurs => poubelle.
# Ils lisent bien le robots.txt mais ne respectent pas l'interdiction!
# <http://search.quepasa.com/>
User-agent: QuepasaCreep
User-agent: quepasa
# Règle d'interdiction générale.
Disallow: /

##########  Règles générales  ##########
# A la fin parce qu'on s'arrête au premier qui matche.

# Protège du piège les robots qui se comportent bien.
User-agent: *
Disallow: /informatique/trousansfond/glue/


en fait la question est : Quest-ce qu'on bot indésirable ?
lesquels sont ils ?

la question secondaire Laughing Je peux reprendre le fichier robots.txt de webrankinfo ? lol...qui par définition doit être bien pensé Smile
 
caviar
bee_human
WRInaute accro
WRInaute accro

Inscrit le: 16 Juin 2005
Messages: 1489
Localisation: Ile-De-France (France)

URL permanente de ce messagePosté le : Mar Sep 05, 2006 14:44    Sujet du message: comment savoir quels bot refuser ?

Je n'y connais rien en fichier robot.txt, mais peut-on réellement empêcher un moteur de fonctionner sur notre site. Si le robot ne tient pas compte du fichier robot.txt. Dans ce cas la seule alternative est-elle le recours au fichier .htaccess ?
Question
 
bee_human Visiter le site web du posteur
caviar
WRInaute discret
WRInaute discret

Inscrit le: 05 Sep 2006
Messages: 63

URL permanente de ce messagePosté le : Mer Sep 06, 2006 9:24    Sujet du message: comment savoir quels bot refuser ?

Si j'ai bien compris ces deux types de fichiers n'ont pas tout à fait la même utilité ... HtACCESS permet entre autre de donner des droits sur les fichiers ou dossiers ...
robot ne protège réèlement rien mais il donne des indications aux moteurs de recherche Wink
++
 
caviar
VLSf1
WRInaute occasionnel
WRInaute occasionnel

Inscrit le: 23 Juin 2004
Messages: 175
Localisation: Toulouse

URL permanente de ce messagePosté le : Mer Sep 06, 2006 10:11    Sujet du message: comment savoir quels bot refuser ?

Le fichier robots.txt de WebRankInfo est assez gros... Mais c'est quel genre de robots ? Des "spammers" qui viennent prendre gentiement des adresses mails ?
 
VLSf1 Visiter le site web du posteur
lothar
WRInaute accro
WRInaute accro

Inscrit le: 12 Juil 2003
Messages: 1447

URL permanente de ce messagePosté le : Mer Sep 06, 2006 10:29    Sujet du message: comment savoir quels bot refuser ?

Ou des aspirateurs (cf. Xenu, qui permet de crawler un site).
 
lothar Visiter le site web du posteur
caviar
WRInaute discret
WRInaute discret

Inscrit le: 05 Sep 2006
Messages: 63

URL permanente de ce messagePosté le : Mer Sep 06, 2006 10:45    Sujet du message: comment savoir quels bot refuser ?

hmm ok ...
bon ben on va s'inspirer de ça alors Wink

++
ps : VLSf1 j'aime beaucoup ton avatar ... c'est toi ? lol ;o)
 
caviar
passion
WRInaute accro
WRInaute accro

Inscrit le: 06 Jan 2006
Messages: 2060
Localisation: La Rochelle

URL permanente de ce messagePosté le : Mer Sep 06, 2006 13:14    Sujet du message: comment savoir quels bot refuser ?

salut,
Est-ce que l'on peut dire que le fichier robots de WRI est standard pour optimiser son site?
je veux dire supprimer les bots aspirateurs et compagnies.
Parce que ces bots-->connait pas !
 
passion Visiter le site web du posteur
lapi
WRInaute passionné
WRInaute passionné

Inscrit le: 09 Avr 2006
Messages: 627
Localisation: Fatal error: Call to undefined function

URL permanente de ce messagePosté le : Jeu Sep 07, 2006 0:17    Sujet du message: comment savoir quels bot refuser ?

bon si tu veux tu peux utiliser ce fichier mais bon chez WRI c'est juste pour économiser de la banse passante qu'ils onts faits cela. si ton site n'est pas trop visité et que tu n'a pas trop de problèmes de banse passante tu très bien laisser un peu plus de bots sur ton site.
 
lapi Visiter le site web du posteur
jeanluc
WRInaute accro
WRInaute accro

Inscrit le: 03 Mai 2004
Messages: 2312
Localisation: Bruxelles

URL permanente de ce messagePosté le : Jeu Sep 07, 2006 7:07    Sujet du message: comment savoir quels bot refuser ?

Citation:

# Fichier de definition des droits d'acces des robots Web
#
User-agent: * # pour tous les robots
Disallow: /cgi-bin/
Disallow: /css/
Disallow: /sessions/

(...)

########## Règles générales ##########
# A la fin parce qu'on s'arrête au premier qui matche.

# Protège du piège les robots qui se comportent bien.
User-agent: *
Disallow: /informatique/trousansfond/glue/


Ceci n'est pas correct. La norme dit qu'il ne peut y avoir qu'une seule ligne User-agent: *.

Ne pas oublier non plus que ce qui suit cette ligne s'applique à tous les robots, sauf à ceux pour lesquels il existe une ligne User-agent: nom du robot. Si on veut qu'une interdiction s'applique à tous les robots sans exception, il est obligatoire de la répéter dans chaque groupe d'interdictions.

Jean-Luc
 
jeanluc Visiter le site web du posteur
caviar
WRInaute discret
WRInaute discret

Inscrit le: 05 Sep 2006
Messages: 63

URL permanente de ce messagePosté le : Jeu Sep 07, 2006 14:45    Sujet du message: comment savoir quels bot refuser ?

salut Smile
et merci à tous pour vos réponses et conseils ... mais pour en revenir à la question initiale ... comment différencier les bon bots ...qui indexent bien le site pour des moteurs de recherche des mauvais bots qui cherchent des mails pour le spam, qui aspirent le site ..etcetcetc ...

il y a une liste officielle ?
un post officiel ?
une astuce non officielle ?

merki encore Laughing Laughing
^@++
 
caviar
jeanluc
WRInaute accro
WRInaute accro

Inscrit le: 03 Mai 2004
Messages: 2312
Localisation: Bruxelles

URL permanente de ce messagePosté le : Jeu Sep 07, 2006 17:01    Sujet du message: comment savoir quels bot refuser ?

Il n'y a pas de réponse officielle. En plus, ça change avec le temps.

Ma méthode est basique et logique Wink : je surveille mes stats des visiteurs venant des moteurs de recherche et je compare avec mes stats de robots. Les robots qui ne rapportent pas de visiteurs et qui consomment trop de trafic, je leur ferme la porte.

Jean-Luc
 
jeanluc Visiter le site web du posteur
caviar
WRInaute discret
WRInaute discret

Inscrit le: 05 Sep 2006
Messages: 63

URL permanente de ce messagePosté le : Ven Sep 08, 2006 9:22    Sujet du message: comment savoir quels bot refuser ?

ok Smile
bon je vais penser à installer un script pour surveiller les bots alors ...
merci Smile
@++
 
caviar
 
Montrer les messages depuis:   
Revenir en haut    Forum -> Débuter en référencement Toutes les heures sont au format GMT + 2 Heures
Page 1 sur 1 - 
Connexion
Nom d'utilisateur:    Mot de passe:      Se connecter automatiquement à chaque visite    

CLIQUEZ ICI pour vous inscrire à WebRankInfo (forum, annuaire, outils...)

Connexion

© 2001-2005 phpBB Group, support français
Personnalisation : WebRankInfo ™


 ODP  Firefox  Alsacreations  annuaire webmaster Yagoort