WordPress [search console] Bloquée par le fichier robots.txt

WRInaute occasionnel
Bonjour,
Search console fait peut-être du zèle en ce moment...

Il me signale des pages bloquées par le fichier robots.txt . J'ai pu résoudre la plupart des problèmes signalés mais il en reste un pour lequel je ne sais que faire.
GSC me signale avoir bloqué une url d'admin (Ces pages ne sont pas indexées ni diffusées sur Google) : -https://cours-thierry.paris/wp-admin/admin-ajax.php?action=rest-nonce
Ben oui mes pages d'admin sont bloquées par robots.txt Disallow: /wp-admin c'est voulu !

Alors comment a-t-il trouvé cette page et comment lui faire comprendre qu'elle n'a pas à être indexée et qu'il n'a pas besoin de s'en préoccuper et le signaler ?


Merci !
 
WRInaute occasionnel
bien merci, il faudra pense à dire à worpress de ne pas mettre disallow dans robots.txt ...

Sinon lequel des 4 liens que tu donnes permet de résoudre mon problème ?

Le fait que les robots soient bloqués empêche l'exécution des scripts ? ou j'ai mal compris ?
 
WRInaute impliqué
en principe Wordpress fait les choses bien :

Code:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

C'est à dire qu'il bloque l'exploration de /wp-admin/ sauf de /wp-admin/admin-ajax.php
 
WRInaute occasionnel
Ok je mettrai ton code à la place de celui que j’ai.

Toutefois je me demande si ce n’est pas contreproductif de l’autoriser à visiter des pages qui ne doivent pas être indexées …

Ce problème est-il réel ? Comment l’éviter ? (Je ne sais pas mettre cette page en noindex)
 
WRInaute impliqué
je me demande si ce n’est pas contreproductif de l’autoriser à visiter des pages qui ne doivent pas être indexées
Quelle page ?

Sur les pages wp-admin à proprement parler, comme je l'évoque dans les discussions listées, interdire l'exploration peut économiser du budget de crawl, mais c'est un problème généralement secondaire :

En pratique, les sites confrontés à des problématiques de budget crawl sont des sites très importants, de l'ordre du million de pages.

Comme robots.txt pourrait incidemment nuire à une bonne non-indexation, je n'en suis pas fan :
Je suis pas fan du fait d'utiliser robots.txt dans un objectif de dicter l'indexation, surtout parce que, paradoxalement, cela peut conduire à ce que la page soit indexée (néanmoins pas son contenu). La directive noindex dans la meta "robots" me semble une méthode préférable.

Par contre, là où il faut faire attention, c'est que WP appelle des composants dans wp-admin qui peuvent être utiles au bon affichage d'une page indexable. Je n'ai aucune idée de la raison pour laquelle l'AJAX est dans un fichier admin-ajax lui-même dans wp-admin, peut-être des raisons historiques, mais dans tous les cas, bloquer l'accès à wp-admin/admin-ajax.php n'est pas une bonne idée, puisqu'il ne semble pas réservé à l'administration à proprement parler.

C'est un peu comme le fichier CSS du site (ou JS) : je n'ai pas envie qu'il soit indexé, mais il faut que les robots puissent y avoir accès, sinon ils ne pourront pas réaliser le rendu de la page.
 
Discussions similaires
Haut