Robots Textes

WRInaute impliqué
Si tu veux touts les robots tu met dans robots.txt (ya til un s à robots.txt ? a confirmer...)

User-agent: *

Cela autorise tous les robots à visiter tout ton site

si tu le fais suivre de :

Disallow: /private

tu leur dis de ne jamais aller sur le dossier /private (qui est à la racine de ton site)

# ceci est un commentaire que tu peux mettre dans ton fichier qui sera
# ignoré par les robots

Au final ça donne dans robots.txt :

# ceci est le contenu de mon fichier robots.txt qui autorise les robots à
# indexer mon site mais leur interdit d'aller dans le repertoire private
User-agent: *
Disallow: /private


voilà, dis nous quoi ;)
 
WRInaute impliqué
freetopien a dit:
Si tu veux touts les robots tu met dans robots.txt (ya til un s à robots.txt ? a confirmer...)

User-agent: *

Cela autorise tous les robots à visiter tout ton site

si tu le fais suivre de :

Disallow: /private

tu leur dis de ne jamais aller sur le dossier /private (qui est à la racine de ton site)

# ceci est un commentaire que tu peux mettre dans ton fichier


voilà, dis nous quoi ;)

Salut , dsl mais j'ai pas tout suivi :oops:
 
WRInaute impliqué
# ceci est le contenu de mon fichier robots.txt qui autorise tous les robots à indexer mon site mais leur interdit
# d'aller dans le repertoire private
# les lignes qui ont un # comme 1er caractère seront ignorés par les
# robots car ils sont considérés comme des commentaires (inutiles pour le robot donc)
User-agent: *
Disallow: /private


ca ira ? :)
 
WRInaute passionné
J'avais trouvé un robot.txt avec pas mal de robots "indésirables" que tu peux interdire de visites sur ton site.
Je ne sais pas si tous ces robots sont encore d'actualités mais je mets le fichier si ça peut aider.

Code:
User-agent: *

User-agent: BotRightHere 
Disallow: / 

User-agent: WebZip 
Disallow: / 

User-agent: larbin 
Disallow: / 

User-agent: b2w/0.1 
Disallow: / 

User-agent: Copernic 
Disallow: / 

User-agent: psbot 
Disallow: / 

User-agent: Python-urllib 
Disallow: / 

User-agent: NetMechanic 
Disallow: / 

User-agent: URL_Spider_Pro 
Disallow: / 

User-agent: CherryPicker 
Disallow: / 

User-agent: EmailCollector 
Disallow: / 

User-agent: EmailSiphon 
Disallow: / 

User-agent: WebBandit 
Disallow: / 

User-agent: EmailWolf 
Disallow: / 

User-agent: ExtractorPro 
Disallow: / 

User-agent: CopyRightCheck 
Disallow: / 

User-agent: Crescent 
Disallow: / 

User-agent: SiteSnagger 
Disallow: / 

User-agent: ProWebWalker 
Disallow: / 

User-agent: CheeseBot 
Disallow: / 

User-agent: LNSpiderguy 
Disallow: / 

User-agent: Alexibot 
Disallow: / 

User-agent: Teleport 
Disallow: / 

User-agent: TeleportPro 
Disallow: / 

User-agent: MIIxpc 
Disallow: / 

User-agent: Telesoft 
Disallow: / 

User-agent: Website Quester 
Disallow: / 

User-agent: WebZip 
Disallow: / 

User-agent: moget/2.1 
Disallow: / 

User-agent: WebZip/4.0 
Disallow: / 

User-agent: WebStripper 
Disallow: / 

User-agent: WebSauger 
Disallow: / 

User-agent: WebCopier 
Disallow: / 

User-agent: NetAnts 
Disallow: / 

User-agent: Mister PiX 
Disallow: / 

User-agent: WebAuto 
Disallow: / 

User-agent: TheNomad 
Disallow: / 

User-agent: WWW-Collector-E 
Disallow: / 

User-agent: RMA 
Disallow: / 

User-agent: libWeb/clsHTTP 
Disallow: / 

User-agent: asterias 
Disallow: / 

User-agent: httplib 
Disallow: / 

User-agent: turingos 
Disallow: / 

User-agent: spanner 
Disallow: / 

User-agent: InfoNaviRobot 
Disallow: / 

User-agent: Harvest/1.5 
Disallow: / 

User-agent: Bullseye/1.0 
Disallow: / 

User-agent: Mozilla/4.0 (compatible; BullsEye; Windows 95) 
Disallow: / 

User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0 
Disallow: / 

User-agent: CherryPickerSE/1.0 
Disallow: / 

User-agent: CherryPickerElite/1.0 
Disallow: / 

User-agent: WebBandit/3.50 
Disallow: / 

User-agent: NICErsPRO 
Disallow: / 

User-agent: Microsoft URL Control - 5.01.4511 
Disallow: / 

User-agent: DittoSpyder 
Disallow: / 

User-agent: Foobot 
Disallow: / 

User-agent: SpankBot 
Disallow: / 

User-agent: BotALot 
Disallow: / 

User-agent: lwp-trivial/1.34 
Disallow: / 

User-agent: lwp-trivial 
Disallow: / 

User-agent: BunnySlippers 
Disallow: / 

User-agent: Microsoft URL Control - 6.00.8169 
Disallow: / 

User-agent: URLy Warning 
Disallow: / 

User-agent: Wget/1.6 
Disallow: / 

User-agent: Wget/1.5.3 
Disallow: / 

User-agent: Wget 
Disallow: / 

User-agent: LinkWalker 
Disallow: / 

User-agent: cosmos 
Disallow: / 

User-agent: moget 
Disallow: / 

User-agent: hloader 
Disallow: / 

User-agent: humanlinks 
Disallow: / 

User-agent: LinkextractorPro 
Disallow: / 

User-agent: Offline Explorer 
Disallow: / 

User-agent: Mata Hari 
Disallow: / 

User-agent: LexiBot 
Disallow: / 

User-agent: Web Image Collector 
Disallow: / 

User-agent: The Intraformant 
Disallow: / 

User-agent: True_Robot/1.0 
Disallow: / 

User-agent: True_Robot 
Disallow: / 

User-agent: BlowFish/1.0 
Disallow: / 

User-agent: JennyBot 
Disallow: / 

User-agent: MIIxpc/4.2 
Disallow: / 

User-agent: BuiltBotTough 
Disallow: / 

User-agent: ProPowerBot/2.14 
Disallow: / 

User-agent: BackDoorBot/1.0 
Disallow: / 

User-agent: toCrawl/UrlDispatcher 
Disallow: / 

User-agent: suzuran 
Disallow: / 

User-agent: TightTwatBot 
Disallow: / 

User-agent: VCI WebViewer VCI WebViewer Win32 
Disallow: / 

User-agent: VCI 
Disallow: / 

User-agent: Szukacz/1.4 
Disallow: / 

User-agent: Openfind data gatherer 
Disallow: / 

User-agent: Openfind 
Disallow: / 

User-agent: Xenu's Link Sleuth 1.1c 
Disallow: / 

User-agent: Xenu's 
Disallow: / 

User-agent: Zeus 
Disallow: / 

User-agent: RepoMonkey Bait & Tackle/v1.01 
Disallow: / 

User-agent: RepoMonkey 
Disallow: / 

User-agent: Microsoft URL Control 
Disallow: / 

User-agent: Openbot 
Disallow: / 

User-agent: URL Control 
Disallow: / 

User-agent: Zeus Link Scout 
Disallow: / 

User-agent: Zeus 32297 Webster Pro V2.9 Win32 
Disallow: / 

User-agent: Webster Pro 
Disallow: / 

User-agent: EroCrawler 
Disallow: / 

User-agent: LinkScan/8.1a Unix 
Disallow: / 

User-agent: Keyword Density/0.9 
Disallow: / 

User-agent: Kenjin Spider 
Disallow: / 

User-agent: Iron33/1.0.2 
Disallow: / 

User-agent: Bookmark search tool 
Disallow: / 

User-agent: GetRight/4.2 
Disallow: / 

User-agent: FairAd Client 
Disallow: / 

User-agent: Gaisbot 
Disallow: / 

User-agent: Aqua_Products 
Disallow: / 

User-agent: Radiation Retriever 1.1 
Disallow: / 

User-agent: Flaming AttackBot 
Disallow: /
:wink:
 
WRInaute passionné
He bien un bot peut être "gentil" (google bot, yahoo slurp,...) ou "méchant" c'est à dire scanner ton site non pas pour l'indexer dans un moteur de recherche mais pour trouver une faille de sécurité ou pour l'inonder de spam (formulaire contact, messages spams dans les forums,...)
 
WRInaute impliqué
ok donc ce sont soit des robots chercheurs de failles ou spammeurs, je les met tous sans hésité alors? ok..
Edit : 50e message ! ;)
 
WRInaute passionné
Oui sans problème, c'est le fichier robot.txt que j'utilise sur mon forum seulement comme je le disais plus haut cela fait assez longtemps que je l'utilise donc il est plus que possible que de nombreux nouveaux bots non listés aient vu le jour et que certains de cette liste soient obsolètes mais bon ça fait déjà un filtre...
 
WRInaute impliqué
Nan mais je viens juste de penser, ça ne sert à rien !!!

Des robots tels que ceci ne respecte pas les rêgles de robots.txt. C'est d'une logique imparable !!!
 
WRInaute passionné
freetopien a dit:
Nan mais je viens juste de penser, ça ne sert à rien !!!

Des robots tels que ceci ne respecte pas les rêgles de robots.txt. C'est d'une logique imparable !!!
Huu ??? Tu peux développer ta "logique stp" ?
 
WRInaute impliqué
Je pense tout simplement que ces robots sont programmés par des humains, qui plus est, malhonnêtes.
C'est pour cela que je pense que leur algorithme procède ainsi :

SI
http://www.site.com a robots.txt
ALORS
Ne pas prendre en compte robots.txt
(voir même:) Aller espionner les dossiers interdit
FIN SI


Non ?
 
WRInaute passionné
keroin a dit:
freetopien a dit:
Nan mais je viens juste de penser, ça ne sert à rien !!!

Des robots tels que ceci ne respecte pas les rêgles de robots.txt. C'est d'une logique imparable !!!
Huu ??? Tu peux développer ta "logique stp" ?

Je pense qu'il veut dire que le respect des règles édictées dans le robot.txt n'est pas obligatoire.
Chaque robot choisit de le lire ou pas, de le respecter ou non.

Il est peu probable qu'un crawler dont le but est de spammer choisisse de le respecter...
 
WRInaute impliqué
Voilà, c'est ce que je voulais dire

Merci Monty973! ;)

Mais bon, limite on peut les laisser, dans le doute, ça ne coute presque rien ^^
 

➡️ Offre MyRankingMetrics ⬅️

pré-audit SEO gratuit avec RM Tech (+ avis d'expert)
coaching offert aux clients (avec Olivier Duffez ou Fabien Faceries)

Voir les détails ici

coaching SEO
Discussions similaires
Haut