Page de Login et fichier Robots.Txt

ungars · 11 Septembre 2022

Bonjour,

J' ai reçu un message sur ma Search Console :

Au propriétaire de https://www.cfdt-cha.fr/ :

La Search Console a constaté que votre site est concerné par 1 problème(s) Indexation des pages. Les problèmes suivants ont été détectés sur votre site. Nous vous conseillons de résoudre ces problèmes dès que possible pour optimiser l'expérience et votre couverture dans la recherche Google.

Principaux problèmes

Bloquée par le fichier robots.txt

Il s' agit de cette page qui pose problème : https://www.cfdt-cha.fr/wp-login.ph...a.fr/pourquoi-soutenir-la-cfdt-comment-voter/

Je ne comprends pas trop... Il semble s' agir de la page de login, c' est normal j' ai voulu la désindexer. Et je ne vois pas de quoi il s' agit, avec ce qui semble une redirection dans l' url (qui n' a rien à voir avec la page de login)

Je vous remercie de vos explications, et vous souhaite une bonne fin d' après midi.

emualliug · 13 Septembre 2022

C'est juste une signalement de la search console qui dit simplement que la page ne peut pas être explorée. Ce n'est pas un problème si la conséquence (non exploration) est voulue, ça peut l'être dans certains cas cependant (parce que ce n'est pas une page qu'on a voulu exclure).

Pour ne pas indexer une page inutile, je préfère la directive noindex plutôt que de faire ça par le robots.txt, dont ce n'est pas l'objet.

Quand à l'URL "bizare", c'est une fonctionnalité de wordpress : elle permet de renvoyer l'utilisateur de là où il vient après s'être connecté. En occurrence, c'est le lien "vous connecter" dans la zone de commentaire de l'article "https://www.cfdt-cha.fr/pourquoi-soutenir-la-cfdt-comment-voter/" qui pointe vers "https://www.cfdt-cha.fr/wp-login.ph...a.fr/pourquoi-soutenir-la-cfdt-comment-voter/". Si y'a moyen de mettre ce lien en nofollow, ça peut être pas mal, parce que ce genre d'hypothèse pourrait se multiplier surtout que le refus d'exploration de la page "/wp-login.php" va rendre compliqué la définition d'une canonique.

ungars · 13 Septembre 2022

Bonsoir, merci de me venir encore en aide et pour ta réponse très complète.

Pour ne pas indexer une page inutile, je préfère la directive noindex plutôt que de faire ça par le robots.txt, dont ce n'est pas l'objet.

Est ce que cela serait mieux de le passer en no follow, pour économiser du budget Rank ?

Bonne soirée.

emualliug · 14 Septembre 2022

"budget de rank", ça n'existe pas, tu dois penser au crawl budget.

L'intérêt du blocage par robots.txt est en effet d'économiser du budget de crawl. Le nofollow remplit le même objectif mais dans des conditions différentes (il faut le mettre sur tous les liens, ce qui n'est pas possible pour les liens externes) et il ne bloque pas formellement l'exploration de la page (ce qui est à mon sens un avantage si on veut la faire exclure de l'indexation par un noindex).

Toutefois, le budget de crawl est le plus souvent un faux problème :

emualliug a dit:
En pratique, les sites confrontés à des problématiques de budget crawl sont des sites très importants, de l'ordre du million de pages.

Avant de faire quoi que ce soit, s'assurer que le remède n'est pas pire que le mal. Noindex et nofollow, au sens où je le proposais, c'est à dire sur un lien spécifique, ne s'utilisent absolument pas de la même façon.

ungars · 14 Septembre 2022

Oui tu as bien fait de me reprendre, je voulais dire budget crawl.

Du coup selon toi, la directive que j' ai mis pour ma page de login ce n' est peut être pas nécessaire ?

emualliug · 14 Septembre 2022

Par le robots.txt ?

Je suis pas fan du fait d'utiliser robots.txt dans un objectif de dicter l'indexation, surtout parce que, paradoxalement, cela peut conduire à ce que la page soit indexée (néanmoins pas son contenu). La directive noindex dans la meta "robots" me semble une méthode préférable.

Je ne pense pas que tu sois dans la nécessité d'économiser ton budget de crawl, et de façon générale, l'économiser d'une page n'a pas de sens.

Ça peut se concevoir en cas de contenu généré automatiquement, par exemple. Mais même dans ces hypothèses, je privilégierai une autre méthode que le robots.txt, de la canonique bien mise (sur de la navigation à facette notamment), du nofollow sélectif, etc.

ungars · 15 Septembre 2022

Je parlais d' une manière générale, donc du coup je peux retirer la ligne de mon fichier robots.txt, et puisque je ne suis pas dans le cas d' un site qui contient un grand nombres de pages, nécessitant d' économiser le budget crawl, ce n' est pas la peine de mettre une directive "noindex" ? C' est ça que tu veux me dire ? Merci beaucoup, bonne soirée.

Fourdraine · 16 Septembre 2022

emualliug a dit:
Par le robots.txt ?

Je suis pas fan du fait d'utiliser robots.txt dans un objectif de dicter l'indexation, surtout parce que, paradoxalement, cela peut conduire à ce que la page soit indexée (néanmoins pas son contenu). La directive noindex dans la meta "robots" me semble une méthode préférable.

C'est une nouvelle information pour moi. C'est la première fois que je vois quelqu'un dire ça.

WebRankInfo · 16 Septembre 2022

Fourdraine a dit:
C'est une nouvelle information pour moi. C'est la première fois que je vois quelqu'un dire ça.

en tout cas c'est tout à fait vrai, lire par exemple "indexation malgré le fichier robots.txt"
il ne faut pas confondre disallow et noindex

emualliug · 16 Septembre 2022

Mon conseil : retire la ligne dans robots.txt, laisse la directive noindex.

Je vais essayer d'être le plus clair possible pour expliquer cela.

L'exploration (crawl) et l'indexation (index) sont deux choses distinctes et moins liées qu'on ne pourrait au premier abord le croire.

L'indexation, c'est que la page figure parmi les pages que le moteur de recherche est susceptible de fournir dans une réponse.
L'exploration, c'est que cette page sera examinée par le crawler du moteur de recherche.

Une page peut être explorée et non indexée : contenu non-pertinent, duplicate, URL non canonique, etc.
Plus étonnant une page peut être indexée sans avoir été explorée, cas d'une page mentionnée ailleurs sur le web mais dont l'exploration n'est pas autorisée / possible.

Que faire pour une page de login ? Ce n'est pas une page que l'on souhaite voir apparaître dans un moteur de recherche, c'est de plus une page de mauvaise qualité d'un point de vue référencement. Il faut donc faire en sorte qu'elle ne soit pas indexée. La directive noindex est le moyen pour cela.

On pourrait se dire que, puisqu'on ne souhaite pas qu'elle soit indexée, il ne sert à rien de la laisser explorée. Sauf que non : comme exposé la non-exploration ne garanti pas la non-indexation, et même pire, si la page n'est pas explorée, le crawler ne reçoit pas la directive noindex.

Bref, en SEO comme en habillement, le combo ceinture + bretelles est une mauvaise idée. Il ne faut pas utiliser robots.txt pour contrôler l'indexation.

L'absence d'exploration n'apporte qu'un avantage négligeable. Le budget de crawl au sens du nombre de pages que Google est disposé d'aller explorer est rarement un problème en lui-même (la disponibilité du serveur, la pertinences des pages déjà indexées en revanche le sont).

Donc, ne pas utiliser robots.txt pour dissuader Google d'aller explorer une page en noindex.

J'ajoute que, d'expérience, une page noindex est explorée bien moins souvent qu'une page "active" d'un site. Ne pas contrôler l'exploration d'une page noindex n'est donc pas très grave.

ungars · 16 Septembre 2022

Bonsoir à tous, merci de l' intérêt que vous portez à mon post, je regarde ça demain tranquillement et je reviens vers vous. Bonne soirée.

ungars · 17 Septembre 2022

Bonjour,

J' ai supprimé la directive dans mon robots.txt, j' ai posté sur le forum de wordpress car je ne sais pas comment mettre un noindex sur ma page de login, tout ce que j' ai trouvé sur le net passait par une directive sur le fichier robots.txt.

Donc, ne pas utiliser robots.txt pour dissuader Google d'aller explorer une page en noindex.

Mais dans mon cas, je n' avais pas (encore) mis de balises no index

Désolé si je ne suis pas clair, ou si je ne comprends pas tout du premier coup.

Edit : en fait cette page est nativement en noindex :

Code:

<meta name='robots' content='noindex, follow' />

C' était donc une erreur sur le tuto que j' avais lu, de mettre une directive sur le fichier robots.txt, là je saisi mieux !