Search Console Indexée malgré le blocage dans robots.txt

WRInaute occasionnel
Alors, au début de la création, fut le fichier robots.txt dédié aux.... robots.

Puis Google est arrivé, et a décrété que le fichier robots.txt ne devait pas être pris en compte et qu'il allait quand même indexer des pages.
En plus il nous l'indique "- Désolé pépére, tu as voulu faire un site indexé proprement ? ben moi, Google, je lui c*** dessus"

Ça ne dérange personne ?

Et demain il va ignorer les balises meta robots ?
 
WRInaute impliqué
Google prend en compte les directives de robots.txt et des balises meta. Mais il y a des limites, et elles sont explicites :

Une page bloquée par un robot peut tout de même être indexée si d'autres sites renvoient vers elle
Nous n'explorerons ni n'indexerons pas le contenu bloqué par le fichier robots.txt, mais nous pouvons toujours trouver et indexer une URL non autorisée si elle est référencée ailleurs sur le Web. Par conséquent, l'adresse URL, et potentiellement d'autres informations accessibles au public, comme le texte d'ancrage dans les liens vers la page, peuvent continuer de figurer dans les résultats de recherche Google. La procédure conseillée pour empêcher l'affichage d'une URL dans les résultats de recherche Google consiste à protéger par mot de passe les fichiers correspondants sur votre serveur, à utiliser la balise Meta ou l'en-tête de réponse "noindex"

(source)
 
Olivier Duffez (admin)
Membre du personnel
Le robots.txt est censé interdire le crawl, donc en effet si l'URL a toujours été ainsi bloquée, elle ne devrait jamais être crawlée et a fortiori indexée.
Mais Google considère les instructions du robots.txt comme des indications et non des obligations. Ma meta robots noindex est considérée comme une directive, toujours respectée (pour l'instant ?).

Moi aussi je trouve ça pénible. Les pages concernées doivent donc avoir une meta robots noindex en plus d'être bloquées au crawl.
 
WRInaute occasionnel
Hello,

Je reviens sur ce sujet... Ce matin, j'avais une petite alarme dans ma search console google m'indiquant ceci
"Indexée malgré le blocage par le fichier robots.txt" , c'est pour ma page de contact. Une page que je ne souhaite pas du tout indéxer.

J'ai donc un blocage sur mon fichier htaccess et j'ai même ces métas (ci-dessous) tellement je ne souhaitais pas d'indexation

<meta name="robots" content="noindex, nofollow" />
<meta name="googlebot" content="noindex" />

Et maintenant, il me demande de corriger... mais corriger quoi ?

Cette URL est sur Google, mais présente des problèmes
Elle peut figurer dans les résultats de la recherche Google (du moment qu'elle ne fait pas l'objet d'une action manuelle ou d'une demande de suppression). Cependant, certains problèmes l'empêchent de bénéficier de l'ensemble des optimisations.


Couverture : Indexée malgré le blocage par le fichier robots.txt

Je viens d'effectuer une recherche sur google de cette page de contact, le résultat est éloquent de bêtise..
Monsite › contact
Aucune information n'est disponible pour cette page.
Découvrir pourquoi

Quelle misère... donc je clique dans "découvrir pourquoi" et j'ai cette information

Cela signifie que le site Web a empêché Google de créer une description pour cette page, mais n'a pas masqué cette dernière afin qu'elle n'apparaisse pas dans la recherche Google.

Si vous êtes le propriétaire de cette page, deux options s'offrent à vous pour améliorer ce résultat : autoriser Google à lire la page afin de permettre la création d'une description appropriée ou masquer entièrement la page pour qu'elle n'apparaisse plus dans les résultats de recherche Google. Pour en savoir plus, lisez la suite.

Je continue....

Pour résoudre ce problème, effectuez l'une des actions suivantes :

1. Autoriser Google à lire votre page ==> NON JE VEUX PAS !

2. Supprimer complètement la page des résultats de recherche Google
Vous pouvez également supprimer complètement la page des résultats de recherche Google. Pour ce faire, procédez comme suit :

  1. Effectuez l'une des actions suivantes pour bloquer votre page :
    • Supprimez la page de votre site. NON JE NE VEUX PAS
    • Demandez un identifiant utilisateur pour accéder à la page.
    • Ajoutez la directive "noindex" à votre page. Si vous utilisez "noindex", vous devez également supprimer la règle robots.txt qui empêche les moteurs de recherche d'accéder à la page. Bien que cela puisse sembler contradictoire, nous devons être en mesure de lire la page afin de détecter l'instruction "noindex". En savoir plus sur le fichier robots.txt
  2. Informez Google de la modification à l'aide de l'outil de suppression de contenu obsolète. Toutes les copies stockées de la page seront ainsi supprimées des résultats de recherche. Copiez l'URL des résultats de recherche dans l'outil.

Donc je m'en vais (point 2) vers cette adresse https://www.google.com/webmasters/tools/removals

Supprimer le contenu obsolète
Instructions :
  • Cette demande ne fonctionne que pour les pages/images qui ont déjà été modifiées ou supprimées du Web.
  • Si vous devez supprimer des informations personnelles ou du contenu problématique d'un point de vue juridique, vous devez envoyer plutôt cette demande.
  • Saisissez l'URL copiée depuis les résultats de recherche Google.
  • Si votre demande aboutit, l'extrait et le résultat en cache seront supprimés des résultats de recherche Google.
  • Si votre demande n'aboutit pas, découvrez pourquoi.
et hop il m'affiche ceci avant de valider !!!!!.....

Ce contenu n'est plus en ligne sur le site Web.
Nous avons vérifié que ce contenu n'existait plus ou que nous n'y avions pas accès.
Vous pouvez à présent envoyer votre demande de suppression temporaire. Il est possible que nous envoyions au webmaster du site une notification l'informant qu'une demande de suppression de page obsolète a été envoyée pour cette URL.


J'ai malgré tout demandé la suppression de cette page.. Wait and see..

Franchement, je sais pas si cela va fonctionner, mais quel parcours !!!
Bonne bonne
Yule
 
Olivier Duffez (admin)
Membre du personnel
je n'ai pas tout lu (trop long désolé) mais laisse ta noindex et retire le blocage du crawl (robots.txt) et ça ira
 
WRInaute occasionnel
Ok merci ,je vais essayer de virer ma ligne sur le fichier robots.txt
Yule
 
Olivier Duffez (admin)
Membre du personnel
ensuite tu auras une ligne dans le rapport "Exclues" disant que l'URL a une noindex :)
 
Discussions similaires
Haut