Site wordpress url bloquée par robots.txt

Discussion dans 'Problèmes de référencement spécifiques à vos sites' créé par Georges van luik, 24 Novembre 2012.

  1. Georges van luik

    Georges van luik Nouveau WRInaute

    Inscrit:
    14 Août 2012
    Messages:
    15
    J'aime reçus:
    0
    Bonjour à tous,

    Je viens vers vous car après avoir suivi les procédures de google et celles proposées par ci par là sur le web je n'ai toujours pas réussi à régler le problème.

    J'ai été chargé de la construction sous wordpress d'un blog commerçant pour un ami, pendant le temps de la mise en place nous avons décidé de mettre en mode privé pour que les visiteurs ne le trouve pas sur google dans un premier temps.

    Maintenant que le site est terminé nous avons décoché cette option ( sous wp réglage ---> vie privé ) mais après une semaine
    rien ne change si je fais une recherche sur google de url il me dit que celle-ci est bloqué par un robots.txt

    J'ai donc créé un fichier robots.txt au quel j'ai mi ce ci

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /wp-login.php
    Disallow: /*wp-login.php*
    Disallow: /trackback
    Disallow: /feed
    Disallow: /comments
    Disallow: /author
    Disallow: /contact/
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /z/j/
    Disallow: /z/c/
    Disallow: /stats/
    Disallow: /dh_
    Disallow: /login/
    Disallow: /wget/
    Disallow: /httpd/
    Disallow: /i/
    Disallow: /f/
    Disallow: /t/
    Disallow: /c/
    Disallow: /j/
    Disallow: /*.php$
    Disallow: /*?*
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: /*.gz$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    Disallow: /*?
    Allow: /wp-content/uploads # alexa archiver User-agent: ia_archiver
    Disallow: / # autoriser le robots google image à rechercher toutes les images User-agent: Googlebot-Image Disallow: /wp-includes/

    Allow: /*

    Bien entendu dans outils pour webmaster le sitemap est refusé de part ce problème.

    J'espère vraiment trouver une solution car le site n'a même pas raison d'être si google ne le prend pas en compte

    Merci de pour votre lecture et participation :)
     
  2. UsagiYojimbo

    UsagiYojimbo WRInaute accro

    Inscrit:
    23 Novembre 2005
    Messages:
    12 379
    J'aime reçus:
    0
    Pourquoi avoir tous ces réglages dans le robots.txt ? Ce n'est absolument pas ce qu'il y a dans le fichier par défaut de wordpress ce me semble. De plus, il y a beaucoup de règles inutiles (notamment le Allow, vu que c'est le comportement par défaut)...
     
  3. Georges van luik

    Georges van luik Nouveau WRInaute

    Inscrit:
    14 Août 2012
    Messages:
    15
    J'aime reçus:
    0
    Oui j'avoue que c'est un robots.txt que j'ai trouvé sur un site donné par un indien lol ..

    Blague à part je n'arrive toujours pas à régler le problème.

    Ps à l'origine il n'y a pas de de robots.txt dans wordpress il me semble ...
     
  4. guicara

    guicara WRInaute passionné

    Inscrit:
    2 Février 2006
    Messages:
    2 491
    J'aime reçus:
    0
    En fait si, mais il n'est pas physiquement présent sur ton FTP. S'il n'y a pas de fichier robots.txt, Wordpress en génère un virtuel.
    Par contre, je ne rejoins que partiellement l'avis de UsagiYojimbo. Ton fichier robots.txt n'est pas si mal. C'est une bonne idée d'interdire l'indexation de :
    Code:
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes 
    Disallow: /wp-login.php
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
     
  5. UsagiYojimbo

    UsagiYojimbo WRInaute accro

    Inscrit:
    23 Novembre 2005
    Messages:
    12 379
    J'aime reçus:
    0
    Oui, je n'ai pas dit que toutes les règles étaient mauvaises. Mais il y en a beaucoup trop, que je trouve particulièrement inutiles pour un WP.

    Reste que si tu testes une url dans Google Webmaster Tools, si elle est bloquée, il t'indique quelle ligne du robots.txt la bloque.
     
  6. Georges van luik

    Georges van luik Nouveau WRInaute

    Inscrit:
    14 Août 2012
    Messages:
    15
    J'aime reçus:
    0
    Merci pour vos réponses, je viens de tester dans google toutes les url du blog et il n'y a que le nom de domaine qui est bloqué par le robots.txt .
    J'ai eu beau chercher dans webmaster tools quelle ligne bloquait je n'ai pas trouvé et le sitemap est toujours refusé si un personne avait une procédure à me filer cela serait bien sympa car j'avoue être perdu sur ce coup là ...
     
  7. guicara

    guicara WRInaute passionné

    Inscrit:
    2 Février 2006
    Messages:
    2 491
    J'aime reçus:
    0
    Une première chose à vérifier, c'est si dans le Google Webmaster Tools (rubrique "État de santé > URL bloquées") la dernière version de ton fichier robots.txt est affichée. Google peut mettre quelque heures (à 1 ou 2 jours) pour répercuter les changements effectuées sur ton fichier robots.txt. Mais comme indiqué sur la page en question, tu a la possibilité de "Modifier pour tester les changements" si jamais le fichier n'est pas à jour.

    Par la suite, en spécifiant l'URL que tu souhaite tester et en cliquant sur "Test", dans la partie "Résultats du test" > "Google Bot", tu pourras voir la ligne qui autorise ou refuse l'accès :
     
  8. Georges van luik

    Georges van luik Nouveau WRInaute

    Inscrit:
    14 Août 2012
    Messages:
    15
    J'aime reçus:
    0
    Merci beaucoup pour le coup de main,

    Dans le résultat du test j'ai justement une réponse qui ne m'aide pas

    Est ce normal que c'est identifié comme répertoire ?
    Le test dit que l'adresse est autorisé mais cela ne se voit pas quand je teste l'url dans google j'ai toujours la phrase me disant que cette url est bloquée par un robots.txt, faut il attendre ?
     
  9. guicara

    guicara WRInaute passionné

    Inscrit:
    2 Février 2006
    Messages:
    2 491
    J'aime reçus:
    0
    Oui c'est normal, car tu a soumis l'URL suivante : http://extensions-plumes-fournisseur.fr/
    ... qui n'est ni plus ni moins que la racine de ton site (c'est à dire ton "répertoire principal").

    Donc le retour du Google Webmaster Tools semble OK.
    Il faudrait que tu test avec des URL internes.

    Mais effectivement il y a un problème avec ton robots.txt (à la vue de la commande site:).
    Soit c'est Google qui ne la pas encore pris en compte (ça peut prendre un certains temps), soit ton robots.txt est invalide.
    Je te poste celui d'un de mes WordPress (sait on jamais) :

    Code:
    User-Agent: *
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes
    Disallow: /author
    Allow: /*
    
    User-agent: Googlebot-Image
    Disallow:
    Allow: /*
    
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*
     
  10. Georges van luik

    Georges van luik Nouveau WRInaute

    Inscrit:
    14 Août 2012
    Messages:
    15
    J'aime reçus:
    0
    Super je vais l'éditer avec le tien :)
     
  11. Georges van luik

    Georges van luik Nouveau WRInaute

    Inscrit:
    14 Août 2012
    Messages:
    15
    J'aime reçus:
    0
    Un grand merci guicara google a mi le temps mais l'url est enfin reconnue :D
     
  12. keyser

    keyser Nouveau WRInaute

    Inscrit:
    27 Mars 2013
    Messages:
    5
    J'aime reçus:
    0
    PB robot.txt google
    le Mer Mar 27, 2013 19:36

    Bonjours, avant tout je tiens a preciser que je ne suis ni un pro ni un developpeur mais j uste un passioné et jai un soucie un pe similaire

    pour la premiere fois un de mes site wordpress a des soucies sur google , lorsque je tape l adresse du site (page d acceuil)
    voila ce que j ai : La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus

    je precise que j ai bien cocher "rendre le site accessible au moteur de recherche dans les reglzages. En plus les autres pages aparaisse bien , jai fouillé un peut pour me renseigner et jai comparé le contenu de la page "monsite/robots.txt" avec celle d un autre de mes site qui na pas ce pb et le contenue est identique (User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/),

    un ami ma conseillé de patienté et que ca aller ce regler tout seul, mais rien

    la s arrete mes faible competenses, pouvez vous venir a mon secours ?
    merci a vous
     
  13. UsagiYojimbo

    UsagiYojimbo WRInaute accro

    Inscrit:
    23 Novembre 2005
    Messages:
    12 379
    J'aime reçus:
    0
    Url du site ?
     
  14. keyser

    keyser Nouveau WRInaute

    Inscrit:
    27 Mars 2013
    Messages:
    5
    J'aime reçus:
    0
    salut,

    alvesplaco.com
     
  15. UsagiYojimbo

    UsagiYojimbo WRInaute accro

    Inscrit:
    23 Novembre 2005
    Messages:
    12 379
    J'aime reçus:
    0
    C'est la version avec www (www.alvesplaco.com) qui a ce message, version a priori redirigée en 301 vers la version sans (alvesplaco.com).

    La home sans les www affiche bien une description cohérente.
     
  16. keyser

    keyser Nouveau WRInaute

    Inscrit:
    27 Mars 2013
    Messages:
    5
    J'aime reçus:
    0
    du coup comment regler mon soucie ?
     
  17. UsagiYojimbo

    UsagiYojimbo WRInaute accro

    Inscrit:
    23 Novembre 2005
    Messages:
    12 379
    J'aime reçus:
    0
    Attendre.

    Tu as le souci depuis combien de temps ?
     
  18. keyser

    keyser Nouveau WRInaute

    Inscrit:
    27 Mars 2013
    Messages:
    5
    J'aime reçus:
    0
    yes , je vien de regarder c bon !!! ;) (il fallait juste etre patien)

    merci bcp a toi d avoir pris du temps

    ps tu as un lien a me donner pour configurer seo by host (genre pour les nuls) ?

    encore merci
     
  19. paille

    paille Nouveau WRInaute

    Inscrit:
    15 Juillet 2013
    Messages:
    3
    J'aime reçus:
    0
    Bonjour,
    Je cherche à savoir pourquoi mon site http://www.diaolbags.com n'est à référencé avec google. Il à été développé avec WP mais depuis plus de 1 mois je n'arrive pas à le référencer.
    J 'ai installé un fichier robots.txt à la racine du site, j'ai inscris et utilisé webmaster tool afin d’optimisé son référencement.
    Voici le contenu du fichier robots.txt :
    User-Agent: *

    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/themes
    Allow: /*
    User-agent: Googlebot-Image
    Disallow:
    Allow: /*
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*
    Sitemap: http://www.diaolbags.com/sitemap.xml


    Je ne comprend pas ou je pêche. Quelqu'un a t'il une solution ?
     
  20. UsagiYojimbo

    UsagiYojimbo WRInaute accro

    Inscrit:
    23 Novembre 2005
    Messages:
    12 379
    J'aime reçus:
    0
    Autorise déjà le moteur de recherche à indexer le site, ca sera un bon début :

    Code:
    <meta name='robots' content='noindex,nofollow' />
    
    Réglages > Lectures, la case Discourage search engines from indexing this site doit être décochée.
     
  21. paille

    paille Nouveau WRInaute

    Inscrit:
    15 Juillet 2013
    Messages:
    3
    J'aime reçus:
    0
    Je te remercie pour ta demarche. Je viens de modifier la ligne de commande dans l'admin de WP. Je pense avoir le retour dans 2 jours.
    Merci encore.
     
  22. paille

    paille Nouveau WRInaute

    Inscrit:
    15 Juillet 2013
    Messages:
    3
    J'aime reçus:
    0
    Bon, le problème n'est toujours pas résolue après tout ce temps.
    Quelqu'un à une idée ?
     
  23. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 824
    J'aime reçus:
    7
    dans ton robots.txt :
    supprime la ligne Disallow: ../certif/
    (ou bien enlève "..")

    supprime toutes les lignes Allow: /*
    supprime les lignes avec instruction vide telles que Disallow:

    ta page d'accueil n'a pas changé depuis mars ? (indiqué dans sitemap)
    as-tu des messages dans GWT concernant le crawl, l'indexation, ton sitemap ou ton robots.txt ?
    as-tu des bons liens pointant vers ton site ?

    il reste des pages en noindex, par exemple http://www.diaolbags.com/boutique-2/
     
  24. noaneo

    noaneo Nouveau WRInaute

    Inscrit:
    27 Août 2013
    Messages:
    11
    J'aime reçus:
    0
    Bonjour,

    http://www.geekpress.fr/wordpress/astuce/fichier-robots-txt-optimise-wordpress-503/
    voilà un robots.txt optimisé pour WordPress, bien sûr ce n'est pas la "sainte" parole, c'est une base à adapter à sa convenance.