|
Voir le sujet précédent :: Voir le sujet suivant
|
| Auteur |
Message |
| |
|
pascal1973 WRInaute passionné

Inscrit le: 24 Sep 2005 Messages: 982 Localisation: Belgique
|
Posté le : Dim Sep 10, 2006 13:30 Sujet du message: Robots Textes |
|
|
Salut à tous
Je voudrais savoir comment elaborer un fichier robots text?
Quels users agents insérer ?
à+++ |
|
| |
|
 |
freetopien WRInaute passionné

Inscrit le: 27 Aoû 2006 Messages: 902 Localisation: Temporelle : Crétacé
|
Posté le : Dim Sep 10, 2006 13:57 Sujet du message: Robots Textes |
|
|
Si tu veux touts les robots tu met dans robots.txt (ya til un s à robots.txt ? a confirmer...)
User-agent: *
Cela autorise tous les robots à visiter tout ton site
si tu le fais suivre de :
Disallow: /private
tu leur dis de ne jamais aller sur le dossier /private (qui est à la racine de ton site)
# ceci est un commentaire que tu peux mettre dans ton fichier qui sera
# ignoré par les robots
Au final ça donne dans robots.txt :
# ceci est le contenu de mon fichier robots.txt qui autorise les robots à
# indexer mon site mais leur interdit d'aller dans le repertoire private
User-agent: *
Disallow: /private
voilà, dis nous quoi 
Dernière édition par freetopien le Dim Sep 10, 2006 14:01; édité 2 fois |
|
| |
|
 |
pascal1973 WRInaute passionné

Inscrit le: 24 Sep 2005 Messages: 982 Localisation: Belgique
|
Posté le : Dim Sep 10, 2006 13:59 Sujet du message: Robots Textes |
|
|
| freetopien a écrit: |
Si tu veux touts les robots tu met dans robots.txt (ya til un s à robots.txt ? a confirmer...)
User-agent: *
Cela autorise tous les robots à visiter tout ton site
si tu le fais suivre de :
Disallow: /private
tu leur dis de ne jamais aller sur le dossier /private (qui est à la racine de ton site)
# ceci est un commentaire que tu peux mettre dans ton fichier
voilà, dis nous quoi  |
Salut , dsl mais j'ai pas tout suivi  |
|
| |
|
 |
freetopien WRInaute passionné

Inscrit le: 27 Aoû 2006 Messages: 902 Localisation: Temporelle : Crétacé
|
Posté le : Dim Sep 10, 2006 14:02 Sujet du message: Robots Textes |
|
|
# ceci est le contenu de mon fichier robots.txt qui autorise tous les robots à indexer mon site mais leur interdit
# d'aller dans le repertoire private
# les lignes qui ont un # comme 1er caractère seront ignorés par les
# robots car ils sont considérés comme des commentaires (inutiles pour le robot donc)
User-agent: *
Disallow: /private
ca ira ?  |
|
| |
|
 |
fredwat WRInaute accro

Inscrit le: 11 Fév 2004 Messages: 3155 Localisation: Géostationnaire
|
Posté le : Dim Sep 10, 2006 14:23 Sujet du message: Robots Textes |
|
|
@pascal1973
j'ai répondu à ton MP
ps: les explications plus haut sont très claires  |
|
| |
|
 |
keroin WRInaute accro

Inscrit le: 29 Avr 2006 Messages: 2036
|
Posté le : Dim Sep 10, 2006 14:31 Sujet du message: Robots Textes |
|
|
J'avais trouvé un robot.txt avec pas mal de robots "indésirables" que tu peux interdire de visites sur ton site.
Je ne sais pas si tous ces robots sont encore d'actualités mais je mets le fichier si ça peut aider.
| Code: |
User-agent: *
User-agent: BotRightHere
Disallow: /
User-agent: WebZip
Disallow: /
User-agent: larbin
Disallow: /
User-agent: b2w/0.1
Disallow: /
User-agent: Copernic
Disallow: /
User-agent: psbot
Disallow: /
User-agent: Python-urllib
Disallow: /
User-agent: NetMechanic
Disallow: /
User-agent: URL_Spider_Pro
Disallow: /
User-agent: CherryPicker
Disallow: /
User-agent: EmailCollector
Disallow: /
User-agent: EmailSiphon
Disallow: /
User-agent: WebBandit
Disallow: /
User-agent: EmailWolf
Disallow: /
User-agent: ExtractorPro
Disallow: /
User-agent: CopyRightCheck
Disallow: /
User-agent: Crescent
Disallow: /
User-agent: SiteSnagger
Disallow: /
User-agent: ProWebWalker
Disallow: /
User-agent: CheeseBot
Disallow: /
User-agent: LNSpiderguy
Disallow: /
User-agent: Alexibot
Disallow: /
User-agent: Teleport
Disallow: /
User-agent: TeleportPro
Disallow: /
User-agent: MIIxpc
Disallow: /
User-agent: Telesoft
Disallow: /
User-agent: Website Quester
Disallow: /
User-agent: WebZip
Disallow: /
User-agent: moget/2.1
Disallow: /
User-agent: WebZip/4.0
Disallow: /
User-agent: WebStripper
Disallow: /
User-agent: WebSauger
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: NetAnts
Disallow: /
User-agent: Mister PiX
Disallow: /
User-agent: WebAuto
Disallow: /
User-agent: TheNomad
Disallow: /
User-agent: WWW-Collector-E
Disallow: /
User-agent: RMA
Disallow: /
User-agent: libWeb/clsHTTP
Disallow: /
User-agent: asterias
Disallow: /
User-agent: httplib
Disallow: /
User-agent: turingos
Disallow: /
User-agent: spanner
Disallow: /
User-agent: InfoNaviRobot
Disallow: /
User-agent: Harvest/1.5
Disallow: /
User-agent: Bullseye/1.0
Disallow: /
User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95)
Disallow: /
User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
Disallow: /
User-agent: CherryPickerSE/1.0
Disallow: /
User-agent: CherryPickerElite/1.0
Disallow: /
User-agent: WebBandit/3.50
Disallow: /
User-agent: NICErsPRO
Disallow: /
User-agent: Microsoft URL Control - 5.01.4511
Disallow: /
User-agent: DittoSpyder
Disallow: /
User-agent: Foobot
Disallow: /
User-agent: SpankBot
Disallow: /
User-agent: BotALot
Disallow: /
User-agent: lwp-trivial/1.34
Disallow: /
User-agent: lwp-trivial
Disallow: /
User-agent: BunnySlippers
Disallow: /
User-agent: Microsoft URL Control - 6.00.8169
Disallow: /
User-agent: URLy Warning
Disallow: /
User-agent: Wget/1.6
Disallow: /
User-agent: Wget/1.5.3
Disallow: /
User-agent: Wget
Disallow: /
User-agent: LinkWalker
Disallow: /
User-agent: cosmos
Disallow: /
User-agent: moget
Disallow: /
User-agent: hloader
Disallow: /
User-agent: humanlinks
Disallow: /
User-agent: LinkextractorPro
Disallow: /
User-agent: Offline Explorer
Disallow: /
User-agent: Mata Hari
Disallow: /
User-agent: LexiBot
Disallow: /
User-agent: Web Image Collector
Disallow: /
User-agent: The Intraformant
Disallow: /
User-agent: True_Robot/1.0
Disallow: /
User-agent: True_Robot
Disallow: /
User-agent: BlowFish/1.0
Disallow: /
User-agent: JennyBot
Disallow: /
User-agent: MIIxpc/4.2
Disallow: /
User-agent: BuiltBotTough
Disallow: /
User-agent: ProPowerBot/2.14
Disallow: /
User-agent: BackDoorBot/1.0
Disallow: /
User-agent: toCrawl/UrlDispatcher
Disallow: /
User-agent: suzuran
Disallow: /
User-agent: TightTwatBot
Disallow: /
User-agent: VCI WebViewer VCI WebViewer Win32
Disallow: /
User-agent: VCI
Disallow: /
User-agent: Szukacz/1.4
Disallow: /
User-agent: Openfind data gatherer
Disallow: /
User-agent: Openfind
Disallow: /
User-agent: Xenu's Link Sleuth 1.1c
Disallow: /
User-agent: Xenu's
Disallow: /
User-agent: Zeus
Disallow: /
User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /
User-agent: RepoMonkey
Disallow: /
User-agent: Microsoft URL Control
Disallow: /
User-agent: Openbot
Disallow: /
User-agent: URL Control
Disallow: /
User-agent: Zeus Link Scout
Disallow: /
User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /
User-agent: Webster Pro
Disallow: /
User-agent: EroCrawler
Disallow: /
User-agent: LinkScan/8.1a Unix
Disallow: /
User-agent: Keyword Density/0.9
Disallow: /
User-agent: Kenjin Spider
Disallow: /
User-agent: Iron33/1.0.2
Disallow: /
User-agent: Bookmark search tool
Disallow: /
User-agent: GetRight/4.2
Disallow: /
User-agent: FairAd Client
Disallow: /
User-agent: Gaisbot
Disallow: /
User-agent: Aqua_Products
Disallow: /
User-agent: Radiation Retriever 1.1
Disallow: /
User-agent: Flaming AttackBot
Disallow: /
|
 |
|
| |
|
 |
freetopien WRInaute passionné

Inscrit le: 27 Aoû 2006 Messages: 902 Localisation: Temporelle : Crétacé
|
Posté le : Dim Sep 10, 2006 15:53 Sujet du message: Robots Textes |
|
|
Salut keroin,
En quoi ces robots sont indésirables stp ?
Ou si quelqu'un d'autre le sait...
Merci !  |
|
| |
|
 |
keroin WRInaute accro

Inscrit le: 29 Avr 2006 Messages: 2036
|
Posté le : Dim Sep 10, 2006 16:42 Sujet du message: Robots Textes |
|
|
| He bien un bot peut être "gentil" (google bot, yahoo slurp,...) ou "méchant" c'est à dire scanner ton site non pas pour l'indexer dans un moteur de recherche mais pour trouver une faille de sécurité ou pour l'inonder de spam (formulaire contact, messages spams dans les forums,...) |
|
| |
|
 |
freetopien WRInaute passionné

Inscrit le: 27 Aoû 2006 Messages: 902 Localisation: Temporelle : Crétacé
|
Posté le : Dim Sep 10, 2006 17:46 Sujet du message: Robots Textes |
|
|
ok donc ce sont soit des robots chercheurs de failles ou spammeurs, je les met tous sans hésité alors? ok..
Edit : 50e message !  |
|
| |
|
 |
keroin WRInaute accro

Inscrit le: 29 Avr 2006 Messages: 2036
|
Posté le : Dim Sep 10, 2006 17:49 Sujet du message: Robots Textes |
|
|
| Oui sans problème, c'est le fichier robot.txt que j'utilise sur mon forum seulement comme je le disais plus haut cela fait assez longtemps que je l'utilise donc il est plus que possible que de nombreux nouveaux bots non listés aient vu le jour et que certains de cette liste soient obsolètes mais bon ça fait déjà un filtre... |
|
| |
|
 |
fredwat WRInaute accro

Inscrit le: 11 Fév 2004 Messages: 3155 Localisation: Géostationnaire
|
Posté le : Dim Sep 10, 2006 17:51 Sujet du message: Robots Textes |
|
|
C'est en tout cas très sympa de fournir l'info
Merci
Fred |
|
| |
|
 |
freetopien WRInaute passionné

Inscrit le: 27 Aoû 2006 Messages: 902 Localisation: Temporelle : Crétacé
|
Posté le : Dim Sep 10, 2006 17:55 Sujet du message: Robots Textes |
|
|
Nan mais je viens juste de penser, ça ne sert à rien !!!
Des robots tels que ceci ne respecte pas les rêgles de robots.txt. C'est d'une logique imparable !!! |
|
| |
|
 |
keroin WRInaute accro

Inscrit le: 29 Avr 2006 Messages: 2036
|
Posté le : Dim Sep 10, 2006 17:58 Sujet du message: Robots Textes |
|
|
| freetopien a écrit: |
Nan mais je viens juste de penser, ça ne sert à rien !!!
Des robots tels que ceci ne respecte pas les rêgles de robots.txt. C'est d'une logique imparable !!! |
Huu ??? Tu peux développer ta "logique stp" ? |
|
| |
|
 |
freetopien WRInaute passionné

Inscrit le: 27 Aoû 2006 Messages: 902 Localisation: Temporelle : Crétacé
|
Posté le : Dim Sep 10, 2006 18:06 Sujet du message: Robots Textes |
|
|
Je pense tout simplement que ces robots sont programmés par des humains, qui plus est, malhonnêtes.
C'est pour cela que je pense que leur algorithme procède ainsi :
SI
http://www.site.com a robots.txt
ALORS
Ne pas prendre en compte robots.txt
(voir même:) Aller espionner les dossiers interdit
FIN SI
Non ? |
|
| |
|
 |
Monty973 WRInaute accro

Inscrit le: 21 Mar 2006 Messages: 1525
|
Posté le : Dim Sep 10, 2006 18:09 Sujet du message: Robots Textes |
|
|
| keroin a écrit: |
| freetopien a écrit: |
Nan mais je viens juste de penser, ça ne sert à rien !!!
Des robots tels que ceci ne respecte pas les rêgles de robots.txt. C'est d'une logique imparable !!! |
Huu ??? Tu peux développer ta "logique stp" ? |
Je pense qu'il veut dire que le respect des règles édictées dans le robot.txt n'est pas obligatoire.
Chaque robot choisit de le lire ou pas, de le respecter ou non.
Il est peu probable qu'un crawler dont le but est de spammer choisisse de le respecter... |
|
| |
|
 |
| |
|
|