Audit SEO : questions techniques sur robots.txt

Bznok33 · 19 Septembre 2022

Bonjour à tous,

Je suis aujourd'hui en charge de réaliser un audit SEO technique sur le site internet de mon entreprise mais je sèche sur la compréhension du fichier robots.txt existant. Je comprends sans problème l'intérêt de ce fichier, là n'est pas la question. Simplement, je voudrais comprendre le raisonnement derrière ce que les anciens webmaster ont écrit (en particulier sur l'utilisation des user-agents "mediapartner-google" et "googlebot-image" et des directives associées). J'ai l'impression qu'il y a quelque chose qui n'est pas logique et je voudrais connaître votre avis. Merci beaucoup !

Voici les lignes du fichier à analyser :

Code:

User-agent: *

# Sitemap
Sitemap: https://www.sitedemonentreprise.com/fr/sitemap_index.xml

# Allow
Allow: /wp-content/uploads/
Allow: /*css?*
Allow: /*js?*

User-agent: Mediapartners-Google*
Allow: /
User-agent: Googlebot-Image

# Disallow ADMIN

Disallow: /wp-login.php
Disallow: /*?
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content

(...+ d'autres directives en disallow)

emualliug · 19 Septembre 2022

À ma connaissance, il n'est pas possible d'utiliser un wildcard pour un User-agent (si ce n'est utiliser que le wildcard pour indiquer "tout user-agent"), et de toute façon ça n'a aucun sens, Mediapartners-Google n'étant pas décliné (liste des user-agent de chez Google).

Les lignes de directive ne me semblent guère pertinentes, puisque, à l'inverse, sans wildcard, ça ne va ordonner que la non-exploration, par exemple, de "/wp-content" (qui ne devrait d'ailleurs rien retourner d'autre qu'une page vide) mais pas des fichiers qui y sont présents. Idem, je vois pas l'intérêt de bloquer l'indexation d'une page qui aurait une query vide (directive "Disallow: /*?").

Je penche donc plutôt pour des lignes inutiles dans robots.txt. Ça ne serait pas la première fois.

Marie-Aude · 19 Septembre 2022

Ils ne veulent pas que leurs images se retrouvent dans GoogleImage

Bznok33 · 20 Septembre 2022

Merci beaucoup pour vos réponses !

Pour introduire ma question plus précisément, voici ce que dit Google :

"La directive disallow spécifie les chemins auxquels les robots d'exploration identifiés par la ligne user-agent avec laquelle la directive disallow est regroupée ne doivent pas avoir accès."

Ma question est alors : Si je comprend bien, les directives disallow bloquent les chemins au robot d'exploration identifié par la ligne user-agent qui est juste au-dessus ? Dans ce cas, est-ce que cela veut dire que toutes les directives en disallow (et il y en a une trentaine de plus) sont uniquement spécifiques au "User-agent: Googlebot-Image" ?

Merci beaucoup

emualliug · 20 Septembre 2022

robots.txt fonctionne par "groupe". Un groupe est constitué d'un ou plusieurs user-agent suivis d'une ou plusieurs directives de type Allow ou Disallow.

Ici, en effet, ton groupe est constitué d'un seul user-agent (Googlebot-Image) et il est suivi de plusieurs directives Disallow.

D'ailleurs en relisant ton robots.txt, il faudrait sans doute le soumettre à Google (il a un outil de test), car le début est pas optimal : la directive Sitemap s'est insérée entre le user-agent et les directives Allow qui suivent.

Bznok33 · 20 Septembre 2022

Merci beaucoup emualliug ! Mes soupçons sont donc avérés !
J'avais effectivement fait le test Google dans la search console pour savoir si certaines pages qui ont une directive disallow étaient crawlées...et le test a échoué car elles étaient en "autorisée". Mais c'est logique si ces directives ne concernent que l'user-agent "Googlebot-image". D'ailleurs OnCrawl me spécifiait que 0 pages étaient "bloquées" par le fichier robots.txt ...logique !