Urls bloquées sur webmaster tools àcause de robots.txt ?

Discussion dans 'Crawl et indexation Google, sitemaps' créé par caviar, 11 Avril 2016.

  1. caviar
    caviar WRInaute occasionnel
    Inscrit:
    5 Septembre 2006
    Messages:
    325
    J'aime reçus:
    0
    hello
    J'ai un fichier robots.txt configuré sur un wordpress comme ceci mais webmaster tools me dit qu'il ne peut pas explorer certaines urls à cause de cette config. hors je ne comprends pas quelle règle empêche cette indexation
    pouvez vous m'aider ?

    exemples d'urls bloquées
    ma home page
    http://xxxx.fr/
    http://xxxx.fr/consultation-en-xxxx/
    http://xxxx.fr/le-cabinet-de-xxxx/

    et le robots.txt
    Code:
    User-agent: *
    # On empêche l'indexation des dossiers sensibles
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?
    # On empêche l'indexation des fichiers sensibles
    User-agent: Googlebot
    Disallow: /*.php$
    Disallow: /*.inc$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    # Autoriser Google Image
    User-agent: Googlebot-Image
    Disallow:
    Allow: /*
    # Autoriser Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*
    # On indique au spider le lien vers notre sitemap
     Sitemap: http://xxxxx.fr/sitemap_index.xml
    j'ai SEO by yoast comme extension pour le SEO ...
    à part ça rien de spécial

    merci pour otre aide
    ++
     
  2. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    32 136
    J'aime reçus:
    273
  3. caviar
    caviar WRInaute occasionnel
    Inscrit:
    5 Septembre 2006
    Messages:
    325
    J'aime reçus:
    0
    bonjour
    merci pour la réponse mais j'avais déjà parcouru cette doc.

    Ce que je ne comprends pas en fait dans mon cas c'est que le robots.txt me semble correct mais que des pages sont tout de même bloquées ?
    c'est là dessus que j'ai besoin de vos avis spécifiques.

    merci
    :mrgreen:
     
  4. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    3 714
    J'aime reçus:
    79
    Je le trouve bien compliqué ce robots.txt
    Chez moi ça s'arrête à la première ligne.
    Et les lignes Disallow: sans rien derrière je me demande si c'est correct
    Pourquoi préciser quelque chose si c'est pour dire ensuite : Allow: /*
    On peut même se passer des deux lignes car les robots seront autorisés par défaut.
     
  5. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    32 136
    J'aime reçus:
    273
    Bonjour,
    Vérifier à nouveau sera utile.
    Trop complexe.
    Simplifier le fichier.

    Cordialement.
     
  6. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 062
    J'aime reçus:
    329
    j'ai testé, l'URI / est autorisée au crawl avec ce fichier robots.txt (toi aussi, teste ton robots.txt avec ce tuto)
    tu as quelle erreur exacte quand tu demandes une exploration ?

    l'URI doit toujours démarrer par un / ce qui n'est pas le cas de toutes tes lignes

    l'astérisque n'est pas dans le standard, même si Google les gère.
    ça ne sert à rien de mettre /* il suffit de mettre /

    le sitemap, autant le déclarer dans Search Console (c'est + discret)
     
  7. caviar
    caviar WRInaute occasionnel
    Inscrit:
    5 Septembre 2006
    Messages:
    325
    J'aime reçus:
    0
    hello merci pour toutes vos réponses

    en fait ce robots.txt vient d'un modèle trouvé sur un blog dans ce genre http://www.memoinfo.fr/configurer-fichier-robots-txt-wordpress.html (je ne sais plus exactement quel article ...)

    L'outil de test de serach console me dit que toutes les pages sont autorisées mais dans la partie sitemap j'avais des messages comme quoi certaines URLS étaient restreintes par robots.txt

    j'ai changé le fichier pour quelque chose de plus simple et redéclaré sitemap dans search console.

    Code:
    User-agent: *
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Allow: /wp-content/uploads
    Disallow: */trackback
    Disallow: /*/feed
    Disallow: /*/comments
    Disallow: /cgi-bin
    Disallow: /*.php$
    Disallow: /*.inc$
    Disallow: /*.gz
    Disallow: /*.cgi
    Allow: /*css?*
    Allow: /*js?*
    
    User-agent: Googlebot-Image
    Disallow:
    
    User-agent: Mediapartners-Google
    Disallow: 
    
    Sitemap: http://xxx.fr/sitemap_index.xml
    
    ça à l'air d'être mieux même si toutes les pages ne sont pas encore indexées... je vais patienter un peu

    merci
     
  8. caviar
    caviar WRInaute occasionnel
    Inscrit:
    5 Septembre 2006
    Messages:
    325
    J'aime reçus:
    0
    Après quelques tests j'ai viré la ligne
    Disallow: /wp-admin

    car search console m'indiquait que certaines ressources étaient bloquées dans des pages ... notamment les appels ajax vers wp-admin/admin-ajax.php

    vuala vuala
    on va voir ce que ça donne
     
  9. caviar
    caviar WRInaute occasionnel
    Inscrit:
    5 Septembre 2006
    Messages:
    325
    J'aime reçus:
    0
    Après quelques tests j'ai viré la ligne
    Disallow: /wp-admin

    car search console m'indiquait que certaines ressources étaient bloquées dans des pages ... notamment les appels ajax vers wp-admin/admin-ajax.php

    ce qui donne au final
    Code:
    User-agent: *
    Disallow: /wp-login.php
    Allow: /wp-content/uploads
    Disallow: */trackback
    Disallow: /*/feed
    Disallow: /*/comments
    Disallow: /cgi-bin
    Disallow: /*.php$
    Disallow: /*.inc$
    Disallow: /*.gz
    Disallow: /*.cgi
    Allow: /*css?*
    Allow: /*js?*
    Allow: /wp-admin/admin-ajax.php
    
    User-agent: Googlebot-Image
    Disallow:
    
    User-agent: Mediapartners-Google
    Disallow: 
    
    Sitemap: http://xxxxx.fr/sitemap_index.xml
    
    vuala vuala
    on va voir ce que ça donne
     
Chargement...
Similar Threads - Urls bloquées webmaster Forum Date
Google affiche dans ses résultats des URLS bloquées par robots.txt ! Crawl et indexation Google, sitemaps 26 Juin 2015
Un contenu serait publié deux endroits/URLs différents, comment éviter le duplicated content ? Référencement Google 2 Octobre 2019
Affichage des urls dans google : url de la home et urls des autres pages d'un site Problèmes de référencement spécifiques à vos sites 1 Octobre 2019
Htacces REQUEST_URI sur des URLs d'un dossier à mettre en noindex URL Rewriting et .htaccess 25 Septembre 2019
Suivre plusieurs urls de téléchargements de pdf dans un rapport personnalisé Google Analytics 30 Avril 2019
Google Search Bug Selecting Unrelated Canonical URLs & Indexing Issues Crawl et indexation Google, sitemaps 26 Avril 2019
Help ! Comment rediriger des urls avec /?q=... URL Rewriting et .htaccess 23 Avril 2019
Search Console Pourquoi mes URLs sont mentionnées en "Détectée, actuellement non indexée" ? Crawl et indexation Google, sitemaps 14 Avril 2019
Anciennes URLs toujours indexées malgré 301 Netlinking, backlinks, liens et redirections 24 Février 2019
méthode imparable pour rediriger les URLs en https WP Développement d'un site Web ou d'une appli mobile 23 Octobre 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice