1. ⭐⭐⭐ Grosse PROMO en cours sur ma plateforme SEO My Ranking Metrics
    Rejeter la notice

Urls bloquées sur webmaster tools àcause de robots.txt ?

Discussion dans 'Crawl et indexation Google, sitemaps' créé par caviar, 11 Avril 2016.

  1. caviar
    caviar WRInaute occasionnel
    Inscrit:
    5 Septembre 2006
    Messages:
    325
    J'aime reçus:
    0
    hello
    J'ai un fichier robots.txt configuré sur un wordpress comme ceci mais webmaster tools me dit qu'il ne peut pas explorer certaines urls à cause de cette config. hors je ne comprends pas quelle règle empêche cette indexation
    pouvez vous m'aider ?

    exemples d'urls bloquées
    ma home page
    http://xxxx.fr/
    http://xxxx.fr/consultation-en-xxxx/
    http://xxxx.fr/le-cabinet-de-xxxx/

    et le robots.txt
    Code:
    User-agent: *
    # On empêche l'indexation des dossiers sensibles
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?
    # On empêche l'indexation des fichiers sensibles
    User-agent: Googlebot
    Disallow: /*.php$
    Disallow: /*.inc$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    # Autoriser Google Image
    User-agent: Googlebot-Image
    Disallow:
    Allow: /*
    # Autoriser Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*
    # On indique au spider le lien vers notre sitemap
     Sitemap: http://xxxxx.fr/sitemap_index.xml
    j'ai SEO by yoast comme extension pour le SEO ...
    à part ça rien de spécial

    merci pour otre aide
    ++
     
  2. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    32 139
    J'aime reçus:
    271
  3. caviar
    caviar WRInaute occasionnel
    Inscrit:
    5 Septembre 2006
    Messages:
    325
    J'aime reçus:
    0
    bonjour
    merci pour la réponse mais j'avais déjà parcouru cette doc.

    Ce que je ne comprends pas en fait dans mon cas c'est que le robots.txt me semble correct mais que des pages sont tout de même bloquées ?
    c'est là dessus que j'ai besoin de vos avis spécifiques.

    merci
    :mrgreen:
     
  4. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    3 656
    J'aime reçus:
    72
    Je le trouve bien compliqué ce robots.txt
    Chez moi ça s'arrête à la première ligne.
    Et les lignes Disallow: sans rien derrière je me demande si c'est correct
    Pourquoi préciser quelque chose si c'est pour dire ensuite : Allow: /*
    On peut même se passer des deux lignes car les robots seront autorisés par défaut.
     
  5. Madrileño
    Madrileño Membre Honoré
    Inscrit:
    7 Juillet 2004
    Messages:
    32 139
    J'aime reçus:
    271
    Bonjour,
    Vérifier à nouveau sera utile.
    Trop complexe.
    Simplifier le fichier.

    Cordialement.
     
  6. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    18 862
    J'aime reçus:
    269
    j'ai testé, l'URI / est autorisée au crawl avec ce fichier robots.txt (toi aussi, teste ton robots.txt avec ce tuto)
    tu as quelle erreur exacte quand tu demandes une exploration ?

    l'URI doit toujours démarrer par un / ce qui n'est pas le cas de toutes tes lignes

    l'astérisque n'est pas dans le standard, même si Google les gère.
    ça ne sert à rien de mettre /* il suffit de mettre /

    le sitemap, autant le déclarer dans Search Console (c'est + discret)
     
  7. caviar
    caviar WRInaute occasionnel
    Inscrit:
    5 Septembre 2006
    Messages:
    325
    J'aime reçus:
    0
    hello merci pour toutes vos réponses

    en fait ce robots.txt vient d'un modèle trouvé sur un blog dans ce genre http://www.memoinfo.fr/configurer-fichier-robots-txt-wordpress.html (je ne sais plus exactement quel article ...)

    L'outil de test de serach console me dit que toutes les pages sont autorisées mais dans la partie sitemap j'avais des messages comme quoi certaines URLS étaient restreintes par robots.txt

    j'ai changé le fichier pour quelque chose de plus simple et redéclaré sitemap dans search console.

    Code:
    User-agent: *
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Allow: /wp-content/uploads
    Disallow: */trackback
    Disallow: /*/feed
    Disallow: /*/comments
    Disallow: /cgi-bin
    Disallow: /*.php$
    Disallow: /*.inc$
    Disallow: /*.gz
    Disallow: /*.cgi
    Allow: /*css?*
    Allow: /*js?*
    
    User-agent: Googlebot-Image
    Disallow:
    
    User-agent: Mediapartners-Google
    Disallow: 
    
    Sitemap: http://xxx.fr/sitemap_index.xml
    
    ça à l'air d'être mieux même si toutes les pages ne sont pas encore indexées... je vais patienter un peu

    merci
     
  8. caviar
    caviar WRInaute occasionnel
    Inscrit:
    5 Septembre 2006
    Messages:
    325
    J'aime reçus:
    0
    Après quelques tests j'ai viré la ligne
    Disallow: /wp-admin

    car search console m'indiquait que certaines ressources étaient bloquées dans des pages ... notamment les appels ajax vers wp-admin/admin-ajax.php

    vuala vuala
    on va voir ce que ça donne
     
  9. caviar
    caviar WRInaute occasionnel
    Inscrit:
    5 Septembre 2006
    Messages:
    325
    J'aime reçus:
    0
    Après quelques tests j'ai viré la ligne
    Disallow: /wp-admin

    car search console m'indiquait que certaines ressources étaient bloquées dans des pages ... notamment les appels ajax vers wp-admin/admin-ajax.php

    ce qui donne au final
    Code:
    User-agent: *
    Disallow: /wp-login.php
    Allow: /wp-content/uploads
    Disallow: */trackback
    Disallow: /*/feed
    Disallow: /*/comments
    Disallow: /cgi-bin
    Disallow: /*.php$
    Disallow: /*.inc$
    Disallow: /*.gz
    Disallow: /*.cgi
    Allow: /*css?*
    Allow: /*js?*
    Allow: /wp-admin/admin-ajax.php
    
    User-agent: Googlebot-Image
    Disallow:
    
    User-agent: Mediapartners-Google
    Disallow: 
    
    Sitemap: http://xxxxx.fr/sitemap_index.xml
    
    vuala vuala
    on va voir ce que ça donne
     
Chargement...
Similar Threads - Urls bloquées webmaster Forum Date
Google affiche dans ses résultats des URLS bloquées par robots.txt ! Crawl et indexation Google, sitemaps 26 Juin 2015
Suivre plusieurs urls de téléchargements de pdf dans un rapport personnalisé Google Analytics 30 Avril 2019
Google Search Bug Selecting Unrelated Canonical URLs & Indexing Issues Crawl et indexation Google, sitemaps 26 Avril 2019
Help ! Comment rediriger des urls avec /?q=... URL Rewriting et .htaccess 23 Avril 2019
Search Console Pourquoi mes URLs sont mentionnées en "Détectée, actuellement non indexée" ? Crawl et indexation Google, sitemaps 14 Avril 2019
Anciennes URLs toujours indexées malgré 301 Netlinking, backlinks, liens et redirections 24 Février 2019
méthode imparable pour rediriger les URLs en https WP Développement d'un site Web ou d'une appli mobile 23 Octobre 2018
URLs avec et sans / à la fin Problèmes de référencement spécifiques à vos sites 27 Septembre 2018
Crawler des URLs depuis un CSV Crawl et indexation Google, sitemaps 30 Août 2018
Desindexation d'URLs via htaccess Crawl et indexation Google, sitemaps 2 Août 2018
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice