1. ✅ Apprenez une METHODE qui marche pour votre SEO ! Formation à distance avec Olivier Duffez et Fabien Facériès + aide pour prise en charge du financement
    Rejeter la notice

Search Console Indexée malgré le blocage dans robots.txt

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Røi, 26 Février 2020.

  1. Røi
    Røi WRInaute occasionnel
    Inscrit:
    8 Août 2005
    Messages:
    459
    J'aime reçus:
    0
    Alors, au début de la création, fut le fichier robots.txt dédié aux.... robots.

    Puis Google est arrivé, et a décrété que le fichier robots.txt ne devait pas être pris en compte et qu'il allait quand même indexer des pages.
    En plus il nous l'indique "- Désolé pépére, tu as voulu faire un site indexé proprement ? ben moi, Google, je lui c*** dessus"

    Ça ne dérange personne ?

    Et demain il va ignorer les balises meta robots ?
     
  2. emualliug
    emualliug WRInaute discret
    Inscrit:
    1 Février 2020
    Messages:
    183
    J'aime reçus:
    35
    Google prend en compte les directives de robots.txt et des balises meta. Mais il y a des limites, et elles sont explicites :

    (source)
     
  3. rick38
    rick38 WRInaute passionné
    Inscrit:
    23 Février 2013
    Messages:
    1 516
    J'aime reçus:
    202
    Utiliser les meta noindex, car robots.txt ça n'a jamais été une méthode "propre".
     
  4. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 789
    J'aime reçus:
    452
    Le robots.txt est censé interdire le crawl, donc en effet si l'URL a toujours été ainsi bloquée, elle ne devrait jamais être crawlée et a fortiori indexée.
    Mais Google considère les instructions du robots.txt comme des indications et non des obligations. Ma meta robots noindex est considérée comme une directive, toujours respectée (pour l'instant ?).

    Moi aussi je trouve ça pénible. Les pages concernées doivent donc avoir une meta robots noindex en plus d'être bloquées au crawl.
     
  5. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    367
    J'aime reçus:
    19
    Hello,

    Je reviens sur ce sujet... Ce matin, j'avais une petite alarme dans ma search console google m'indiquant ceci
    "Indexée malgré le blocage par le fichier robots.txt" , c'est pour ma page de contact. Une page que je ne souhaite pas du tout indéxer.

    J'ai donc un blocage sur mon fichier htaccess et j'ai même ces métas (ci-dessous) tellement je ne souhaitais pas d'indexation

    <meta name="robots" content="noindex, nofollow" />
    <meta name="googlebot" content="noindex" />

    Et maintenant, il me demande de corriger... mais corriger quoi ?

    Cette URL est sur Google, mais présente des problèmes
    Elle peut figurer dans les résultats de la recherche Google (du moment qu'elle ne fait pas l'objet d'une action manuelle ou d'une demande de suppression). Cependant, certains problèmes l'empêchent de bénéficier de l'ensemble des optimisations.


    Couverture : Indexée malgré le blocage par le fichier robots.txt

    Je viens d'effectuer une recherche sur google de cette page de contact, le résultat est éloquent de bêtise..
    Monsite › contact
    Aucune information n'est disponible pour cette page.
    Découvrir pourquoi

    Quelle misère... donc je clique dans "découvrir pourquoi" et j'ai cette information

    Cela signifie que le site Web a empêché Google de créer une description pour cette page, mais n'a pas masqué cette dernière afin qu'elle n'apparaisse pas dans la recherche Google.

    Si vous êtes le propriétaire de cette page, deux options s'offrent à vous pour améliorer ce résultat : autoriser Google à lire la page afin de permettre la création d'une description appropriée ou masquer entièrement la page pour qu'elle n'apparaisse plus dans les résultats de recherche Google. Pour en savoir plus, lisez la suite.

    Je continue....

    Pour résoudre ce problème, effectuez l'une des actions suivantes :

    1. Autoriser Google à lire votre page ==> NON JE VEUX PAS !

    2. Supprimer complètement la page des résultats de recherche Google
    Vous pouvez également supprimer complètement la page des résultats de recherche Google. Pour ce faire, procédez comme suit :

    1. Effectuez l'une des actions suivantes pour bloquer votre page :
      • Supprimez la page de votre site. NON JE NE VEUX PAS
      • Demandez un identifiant utilisateur pour accéder à la page.
      • Ajoutez la directive "noindex" à votre page. Si vous utilisez "noindex", vous devez également supprimer la règle robots.txt qui empêche les moteurs de recherche d'accéder à la page. Bien que cela puisse sembler contradictoire, nous devons être en mesure de lire la page afin de détecter l'instruction "noindex". En savoir plus sur le fichier robots.txt
    2. Informez Google de la modification à l'aide de l'outil de suppression de contenu obsolète. Toutes les copies stockées de la page seront ainsi supprimées des résultats de recherche. Copiez l'URL des résultats de recherche dans l'outil.

    Donc je m'en vais (point 2) vers cette adresse https://www.google.com/webmasters/tools/removals

    Supprimer le contenu obsolète
    Instructions :
    • Cette demande ne fonctionne que pour les pages/images qui ont déjà été modifiées ou supprimées du Web.
    • Si vous devez supprimer des informations personnelles ou du contenu problématique d'un point de vue juridique, vous devez envoyer plutôt cette demande.
    • Saisissez l'URL copiée depuis les résultats de recherche Google.
    • Si votre demande aboutit, l'extrait et le résultat en cache seront supprimés des résultats de recherche Google.
    • Si votre demande n'aboutit pas, découvrez pourquoi.
    et hop il m'affiche ceci avant de valider !!!!!.....

    Ce contenu n'est plus en ligne sur le site Web.
    Nous avons vérifié que ce contenu n'existait plus ou que nous n'y avions pas accès.
    Vous pouvez à présent envoyer votre demande de suppression temporaire. Il est possible que nous envoyions au webmaster du site une notification l'informant qu'une demande de suppression de page obsolète a été envoyée pour cette URL.


    J'ai malgré tout demandé la suppression de cette page.. Wait and see..

    Franchement, je sais pas si cela va fonctionner, mais quel parcours !!!
    Bonne bonne
    Yule
     
  6. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 789
    J'aime reçus:
    452
    je n'ai pas tout lu (trop long désolé) mais laisse ta noindex et retire le blocage du crawl (robots.txt) et ça ira
     
  7. yule
    yule WRInaute occasionnel
    Inscrit:
    24 Juillet 2004
    Messages:
    367
    J'aime reçus:
    19
    Ok merci ,je vais essayer de virer ma ligne sur le fichier robots.txt
    Yule
     
  8. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    19 789
    J'aime reçus:
    452
    ensuite tu auras une ligne dans le rapport "Exclues" disant que l'URL a une noindex :)
     
Chargement...
Similar Threads - Indexée malgré blocage Forum Date
Message console "Indexée malgré blocage robot.txt" Crawl et indexation Google, sitemaps 4 Août 2019
"Indexée malgré le blocage par le fichier robots.txt" Que faire si ce message ? Crawl et indexation Google, sitemaps 12 Février 2019
Indexée malgré le blocage par le fichier robots.txt Débuter en référencement 5 Décembre 2018
Anciennes URLs toujours indexées malgré 301 Netlinking, backlinks, liens et redirections 24 Février 2019
Page indexée malgré canonical Crawl et indexation Google, sitemaps 20 Février 2019
pages indexées malgré la balise no-index Crawl et indexation Google, sitemaps 6 Novembre 2018
Page indexée malgré redirection 301 Crawl et indexation Google, sitemaps 21 Mars 2014
Page recherche.php indexée. malgré le noindex ? Problèmes de référencement spécifiques à vos sites 30 Octobre 2011
Désindexer une page non indexée Crawl et indexation Google, sitemaps 12 Août 2020
Liens d'une page désindéxée Débuter en référencement 16 Juillet 2020