Enorme boulette avec un fichier robot.txt..Votre avis SVP !

delavega92 · 12 Juillet 2011

Bonjour à tous,

Voila une petite question très simple mais qui a eu d'énorme conséquence...

En lançant la V2 d'un site j'ai laissé malencontreusement un fichier robot.txt avec les attributs User-Agent: *
Disallow: / ( Nous avions développé le site sur une url différente et avions bloqué l'indexation des pages pour des questions de doublons...) bref quelques jours plus tard pour s'apercevoir de la coquille et qu'un bon nombre des pages ont éts virées ( ou sont encore présentes dans les résultats de GG mais sans balise méta ce qui revient presque au même..) d'ou une audience divisée par 5...oups pas bon...

Nous avons viré le fichier en catastrophe...Y a t'il une chance que tout revienne à la normale assez rapidemment compte tenu du fait que le site était plutôt bien indexé depuis 4 ans ??

Ca fait un peu question de débutant mais merci si vous avez une réponse.

David Licoppe · 12 Juillet 2011

ça n'a pas vraiment d'impact, mettez déjà ceci dans votre fichier robots pour éviter d'avoir de problème :

Code:

User-agent: *
Allow: /
User-agent: 008
User-agent: Alexibot
User-agent: ApocalXExplorerBot
User-agent: asterias
User-agent: BackDoorBot/1.0
User-agent: BizInformation
User-agent: Black Hole
User-agent: BlowFish/1.0
User-agent: BotALot
User-agent: BuiltBotTough
User-agent: Bullseye/1.0
User-agent: BunnySlippers
User-agent: Cegbfeieh
User-agent: CheeseBot
User-agent: CherryPicker
User-agent: CherryPickerElite/1.0
User-agent: CherryPickerSE/1.0
User-agent: CopyRightCheck
User-agent: cosmos
User-agent: Crescent
User-agent: Crescent Internet ToolPak HTTP OLE Control v.1.0
User-agent: DISCo Pump 3.1
User-agent: DittoSpyder
User-agent: dotbot
User-agent: EmailCollector
User-agent: EmailSiphon
User-agent: EmailWolf
User-agent: EroCrawler
User-agent: ExtractorPro
User-agent: Flamingo_SearchEngine
User-agent: Foobot
User-agent: Harvest/1.5
User-agent: hloader
User-agent: httplib
User-agent: HTTrack
User-agent: HTTrack 3.0
User-agent: humanlinks
User-agent: Igentia
User-agent: InfoNaviRobot
User-agent: JennyBot
User-agent: Kenjin Spider
User-agent: LexiBot
User-agent: libWeb/clsHTTP
User-agent: LinkextractorPro
User-agent: LinkScan/8.1a Unix
User-agent: LinkWalker
User-agent: lwp-trivial
User-agent: lwp-trivial/1.34
User-agent: Mata Hari
User-agent: Microsoft URL Control - 5.01.4511
User-agent: Microsoft URL Control - 6.00.8169
User-agent: MIIxpc
User-agent: MIIxpc/4.2
User-agent: Mister PiX
User-Agent: MJ12bot
User-agent: MLBot
User-agent: moget
User-agent: moget/2.1
User-agent: MS Search 4.0 Robot
User-agent: MS Search 5.0 Robot
User-agent: Naverbot
User-agent: NetAnts
User-agent: NetAttache
User-agent: NetAttache Light 1.1
User-agent: NetMechanic
User-agent: NICErsPRO
User-agent: Offline Explorer
User-agent: Openfind
User-agent: Openfind data gathere
User-agent: ProPowerBot/2.14
User-agent: ProWebWalker
User-agent: psbot
User-agent: QuepasaCreep
User-agent: QueryN Metasearch
User-agent: RepoMonkey
User-agent: RepoMonkey Bait & Tackle/v1.01
User-agent: RMA
User-agent: SightupBot
User-agent: SightupBot
User-agent: SiteBot
User-agent: SiteSnagger
User-agent: Sogou web spider
User-agent: sosospider
User-agent: SpankBot
User-agent: spanner
User-agent: Speedy
User-agent: Speedy
User-agent: suggybot
User-agent: SuperBot
User-agent: SuperBot/2.6
User-agent: suzuran
User-agent: Szukacz/1.4
User-agent: Teleport
User-agent: Telesoft
User-agent: The Intraformant
User-agent: TheNomad
User-agent: TightTwatBot
User-agent: Titan
User-agent: toCrawl/UrlDispatcher
User-agent: True_Robot
User-agent: True_Robot/1.0
User-agent: turingos
User-agent: TurnitinBot
User-agent: URLy Warning
User-agent: VCI
User-agent: VCI WebViewer VCI WebViewer Win32
User-agent: Web Image Collector
User-agent: WebAuto
User-agent: WebBandit
User-agent: WebBandit/3.50
User-agent: WebCopier
User-agent: webcopy
User-agent: WebEnhancer
User-agent: WebmasterWorldForumBot
User-agent: webmirror
User-agent: WebReaper
User-agent: WebSauger
User-agent: website extractor
User-agent: Website Quester
User-agent: Webster Pro
User-agent: WebStripper
User-agent: WebStripper/2.02
User-agent: WebZip
User-agent: WebZip/4.0
User-agent: Wget
User-agent: Wget/1.5.3
User-agent: Wget/1.6
User-agent: WikioFeedBot
User-agent: wikiwix-bot-3.0
User-agent: WinHTTrack
User-agent: WWW-Collector-E
User-agent: Xenu's
User-agent: Xenu's Link Sleuth 1.1c
User-agent: YRSPider
User-agent: Zeus

ensuite, il faut donner les droits pour les robots sur vos dossiers et fichiers !
Bonne continuation

UsagiYojimbo · 12 Juillet 2011

David Licoppe a dit:
ça n'a pas vraiment d'impact

Je serais loin d'être aussi catégorique. Si la structure des url a changé entre l'ancien et le nouveau site, et qu'aucun redirection n'a été faite, ca peut nettement impacter sur la visibilité du site.

David Licoppe · 12 Juillet 2011

pas d'accord les amis, on parle pas de fichier htacces, on parle de fichier robots, au pire si le fichier robots contient juste :

User-agent: *
Allow: /

il indexera tout ! Donc "pas de plan catastrophe"

HawkEye · 12 Juillet 2011

David Licoppe a dit:
pas d'accord les amis, on parle pas de fichier htacces, on parle de fichier robots, au pire si le fichier robots contient juste :

User-agent: *
Allow: /

il indexera tout ! Donc "pas de plan catastrophe"

Ce qu'il a laissé traîner 5 jours sur son serveur, c'est

Code:

User-Agent: *
Disallow: /

>> c'est moins cool.

L'avoir retiré est déjà une bonne chose.
Tu peux signaler la boulette via Google Webmaster Tools: ça peut accélérer la prise en considération.

UsagiYojimbo · 12 Juillet 2011

David Licoppe a dit:
pas d'accord les amis, on parle pas de fichier htacces, on parle de fichier robots

Et alors ?

Je me suis trouvé devant ce cas de figure plusieurs fois et je peux t'assurer que c'est à ne pas prendre à la légère. cette directive vaut pour Google (et les autres moteurs) comme une demande de désindexation des pages existante et de non indexation des nouvelles pages. Bref le site devient rapidement invisible auprès des moteurs de recherche.

David Licoppe · 12 Juillet 2011

HawkEye a dit:
>> c'est moins cool.

Aaaaaah oui ! Effectivement ! Là ça pose problème alors. Surtout s'il à fait le cas inverse :?

HawkEye à raison, il faut faire le nécessaire via Webmaster Tools de Google.
Le suivi de son indexation est indispensable à présent

Bonne chance

zeb · 12 Juillet 2011

perso en dev je préfère cacher le truc derrière un htaccess c'est plu direct et moins risqué quand on y pense plu ... mais bon je sais que je donne pas de solutions là.

Essaie peut être de soumettre un sitemap, ça peut décoincer le truc puisque c'est presque une demande explicite d'indexation..

milkiway · 12 Juillet 2011

J'ai déjà eu le cas, sur un très gros site. 1 semaine de noindex. On l'a viré et tout est revenu à la normale.

Leonick · 13 Juillet 2011

en pré sortie de sites (après la validation du dév) et quand les 1° visiteurs viennent sur le site, je laisse, sciemment, le robots.txt tout bloquer. Je ne l'ouvre partiellement, qu'aux 3-5 gros robots qui m'intéressent (la russie et la chine ne sont pas dans ma cible, donc pas besoin de yandex et Baidu) et ça ne pose aucun problème

HawkEye · 13 Juillet 2011

milkiway a dit:
J'ai déjà eu le cas, sur un très gros site. 1 semaine de noindex. On l'a viré et tout est revenu à la normale.

Je vois qu'on a tous fait la boulette au moins une fois :mrgreen:

Il a fallu 3 jours en ce qui me concerne: envoyé un message via GWT, reçu l'accusé de réception, et la confirmation d'une prise d'action (bien vague, comme d'hab

).

nickargall · 13 Juillet 2011

Idem, oubli d'une balise <meta noindex> qui est restée en place deux semaines. Retour à la 'normale ' dans les deux semaines qui ont suivi, en ce qui me concerne, sans rien faire de particulier (sinon de virer la meta noindex :mrgreen: )

rtb · 13 Juillet 2011

on se sent moins seul

...
La suppression du noindex avait suffit pour un retour sous quelques jours dans les SERP