Robots.txt ok à 100% mais lu comme disallow dans GWT et Bing ?

Discussion dans 'Crawl et indexation Google, sitemaps' créé par lebonbuzz, 16 Décembre 2013.

  1. lebonbuzz
    lebonbuzz Nouveau WRInaute
    Inscrit:
    13 Octobre 2011
    Messages:
    4
    J'aime reçus:
    0
    Bonjour à tous.

    J'ai eu le bonheur de me faire hacker il y a quelques jours, mon fichier robots avait un beau disallow all. Depuis mon fichier robots.txt est mal interprété par GWT !

    Mon fichier robots que j'ai pris directement sur wp-referencement : http://www.tohom.fr/robots.txt

    Les répertoires importants sont bloqués.

    Pourtant dans GWT, si je veux explorer comme google sur n'importe quelle page de mon site, j'obtiens la réponse : Refusée par le fichier robots.txt
    SI j'essaye avec Bing : Statut: Représentation de la tentative de téléchargement non effectuée due à un problème de courtoisie.

    Alors, que puis-je faire ? Un script a peut-être été placé sur mon serveur virtuel mais où ? Un conseil pour me driver ?

    Merci d'avance
     
  2. Koxin-L.fr
    Koxin-L.fr WRInaute passionné
    Inscrit:
    15 Janvier 2012
    Messages:
    1 879
    J'aime reçus:
    6
    Tu as testé avec un fichier robots vierge ?
     
  3. lebonbuzz
    lebonbuzz Nouveau WRInaute
    Inscrit:
    13 Octobre 2011
    Messages:
    4
    J'aime reçus:
    0
    Oui mais rien à faire, peu importe le contenu de mon fichier robots.txt sur le ftp, j'aurai toujours ça :

    http://www.hostingpics.net/viewer.php?id=687782robots.png

    User-Agent DISALLOW

    Merci pour ton aide.
     
  4. spout
    spout WRInaute accro
    Inscrit:
    14 Mai 2003
    Messages:
    9 205
    J'aime reçus:
    365
    Tu utilises cloudflare, par hasard, c'est pas un des CDN qui renvois pas la même chose ?
     
  5. lebonbuzz
    lebonbuzz Nouveau WRInaute
    Inscrit:
    13 Octobre 2011
    Messages:
    4
    J'aime reçus:
    0
    Bonjour Spout,

    C'est une possibilité, du coup, j'ai vidé le cache Cloudflare, c'est une possibilité mais pour pouvoir en être sûr, je vais devoir attendre jusqu'à 48 heures...

    Google précise :
    Impossible d'explorer la page pour le moment, car celle-ci est bloquée par la dernière version du fichier robots.txt téléchargé par Googlebot. Sachez que si vous avez mis à jour le fichier robots.txt dernièrement, son actualisation peut prendre jusqu'à deux jours.

    La dernière version téléchargée par Google date du 14 décembre. Par contre, quand je teste une url avec le fichier robots pas de problème.

    Que dois-je faire? Attendre ?

    En tout cas, merci pour le coup de main
     
  6. lebonbuzz
    lebonbuzz Nouveau WRInaute
    Inscrit:
    13 Octobre 2011
    Messages:
    4
    J'aime reçus:
    0
    Bonjour.

    Pour vous informer, j'ai désactiver le cache, google est venu crawler, le fichier robots.txt est désormais correct.

    Merci à vous !
     
  7. Koxin-L.fr
    Koxin-L.fr WRInaute passionné
    Inscrit:
    15 Janvier 2012
    Messages:
    1 879
    J'aime reçus:
    6
    Le cache de quoi ? Du cloud ?
    C'est un peu le but de réinitialiser le cache quand on fait des modif, non ?
     
Chargement...
Similar Threads - Robots 100% disallow Forum Date
Audit SEO : questions techniques sur robots.txt Demandes d'avis et de conseils sur vos sites 19 Septembre 2022
Page de Login et fichier Robots.Txt Débuter en référencement 11 Septembre 2022
Duplicate content "?p=..." et robots.txt Crawl et indexation Google, sitemaps 7 Septembre 2022
Meta robots noindex WordPress Problèmes de référencement spécifiques à vos sites 9 Août 2022
robots.txt bloque l'accès à mon site par Google Débuter en référencement 7 Juillet 2022
Pourquoi ne pas utiliser le robots.txt pour interdire l'indexation ? Débuter en référencement 14 Avril 2022
canonical et robots=index sur une même page Débuter en référencement 7 Décembre 2021
le noindex dans le robots.txt Débuter en référencement 19 Novembre 2021
suppression des pages bloquées par robots.txt Débuter en référencement 18 Octobre 2021
Faut-il déclarer le sitemap dans le robots.txt ou search console ? Crawl et indexation Google, sitemaps 14 Juillet 2021
Les mots-clés de mon site ne sont pas détectés par les robots de référencement Problèmes de référencement spécifiques à vos sites 7 Juillet 2021
Wordpress et le robots.txt Débuter en référencement 21 Juin 2021
Search Console noindex détecté dans la balise Meta robots Débuter en référencement 21 Mai 2021
Urls filtrées indexées et crawl robots.txt Crawl et indexation Google, sitemaps 19 Mai 2021
Robots : n'autoriser que les 4 ou 5 moteurs de recherche principaux Crawl et indexation Google, sitemaps 15 Janvier 2021
erreurs robots.txt Crawl et indexation Google, sitemaps 23 Décembre 2020
Google me dit que ma page est bien indexée mais bloquée par robots.txt Crawl et indexation Google, sitemaps 25 Novembre 2020
Faut-il déclarer le sitemap dans le robots.txt ou search console ? Crawl et indexation Google, sitemaps 17 Octobre 2020
Urls orphelines crawlées par Google + Robots.txt ? Crawl et indexation Google, sitemaps 3 Avril 2020
Robots.txt du site Kayak Débuter en référencement 11 Mars 2020