Audit SEO : questions techniques sur robots.txt

Discussion dans 'Demandes d'avis et de conseils sur vos sites' créé par Bznok33, 19 Septembre 2022.

  1. Bznok33
    Bznok33 Nouveau WRInaute
    Inscrit:
    19 Septembre 2022
    Messages:
    3
    J'aime reçus:
    0
    Bonjour à tous,

    Je suis aujourd'hui en charge de réaliser un audit SEO technique sur le site internet de mon entreprise mais je sèche sur la compréhension du fichier robots.txt existant. Je comprends sans problème l'intérêt de ce fichier, là n'est pas la question. Simplement, je voudrais comprendre le raisonnement derrière ce que les anciens webmaster ont écrit (en particulier sur l'utilisation des user-agents "mediapartner-google" et "googlebot-image" et des directives associées). J'ai l'impression qu'il y a quelque chose qui n'est pas logique et je voudrais connaître votre avis. Merci beaucoup !

    Voici les lignes du fichier à analyser :
    Code:
    User-agent: *
    
    # Sitemap
    Sitemap: https://www.sitedemonentreprise.com/fr/sitemap_index.xml
    
    # Allow
    Allow: /wp-content/uploads/
    Allow: /*css?*
    Allow: /*js?*
    
    User-agent: Mediapartners-Google*
    Allow: /
    User-agent: Googlebot-Image
    
    # Disallow ADMIN
    
    Disallow: /wp-login.php
    Disallow: /*?
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content
    (...+ d'autres directives en disallow)
     
  2. emualliug
    emualliug WRInaute impliqué
    Inscrit:
    1 Février 2020
    Messages:
    510
    J'aime reçus:
    122
    À ma connaissance, il n'est pas possible d'utiliser un wildcard pour un User-agent (si ce n'est utiliser que le wildcard pour indiquer "tout user-agent"), et de toute façon ça n'a aucun sens, Mediapartners-Google n'étant pas décliné (liste des user-agent de chez Google).

    Les lignes de directive ne me semblent guère pertinentes, puisque, à l'inverse, sans wildcard, ça ne va ordonner que la non-exploration, par exemple, de "/wp-content" (qui ne devrait d'ailleurs rien retourner d'autre qu'une page vide) mais pas des fichiers qui y sont présents. Idem, je vois pas l'intérêt de bloquer l'indexation d'une page qui aurait une query vide (directive "Disallow: /*?").

    Je penche donc plutôt pour des lignes inutiles dans robots.txt. Ça ne serait pas la première fois.
     
    Bznok33 apprécie ceci.
  3. Marie-Aude
    Marie-Aude WRInaute accro
    Inscrit:
    5 Juin 2006
    Messages:
    16 952
    J'aime reçus:
    275
    Ils ne veulent pas que leurs images se retrouvent dans GoogleImage
     
    Bznok33 apprécie ceci.
  4. Bznok33
    Bznok33 Nouveau WRInaute
    Inscrit:
    19 Septembre 2022
    Messages:
    3
    J'aime reçus:
    0
    Merci beaucoup pour vos réponses !

    Pour introduire ma question plus précisément, voici ce que dit Google :

    "La directive disallow spécifie les chemins auxquels les robots d'exploration identifiés par la ligne user-agent avec laquelle la directive disallow est regroupée ne doivent pas avoir accès."


    Ma question est alors : Si je comprend bien, les directives disallow bloquent les chemins au robot d'exploration identifié par la ligne user-agent qui est juste au-dessus ? Dans ce cas, est-ce que cela veut dire que toutes les directives en disallow (et il y en a une trentaine de plus) sont uniquement spécifiques au "User-agent: Googlebot-Image" ?

    Merci beaucoup
     
  5. emualliug
    emualliug WRInaute impliqué
    Inscrit:
    1 Février 2020
    Messages:
    510
    J'aime reçus:
    122
    robots.txt fonctionne par "groupe". Un groupe est constitué d'un ou plusieurs user-agent suivis d'une ou plusieurs directives de type Allow ou Disallow.

    Ici, en effet, ton groupe est constitué d'un seul user-agent (Googlebot-Image) et il est suivi de plusieurs directives Disallow.

    D'ailleurs en relisant ton robots.txt, il faudrait sans doute le soumettre à Google (il a un outil de test), car le début est pas optimal : la directive Sitemap s'est insérée entre le user-agent et les directives Allow qui suivent.
     
    Bznok33 apprécie ceci.
  6. Bznok33
    Bznok33 Nouveau WRInaute
    Inscrit:
    19 Septembre 2022
    Messages:
    3
    J'aime reçus:
    0
    Merci beaucoup emualliug ! Mes soupçons sont donc avérés !
    J'avais effectivement fait le test Google dans la search console pour savoir si certaines pages qui ont une directive disallow étaient crawlées...et le test a échoué car elles étaient en "autorisée". Mais c'est logique si ces directives ne concernent que l'user-agent "Googlebot-image". D'ailleurs OnCrawl me spécifiait que 0 pages étaient "bloquées" par le fichier robots.txt ...logique !
     
Chargement...
Similar Threads - SEO questions techniques Forum Date
SEO questions Référencement Google 9 Juin 2022
Questions SEO technique (pagination) Netlinking, backlinks, liens et redirections 1 Mai 2022
WordPress Questions de SEO pour les images et duplicate content Débuter en référencement 11 Avril 2020
Questions après mon audit SEO avec RM Tech Problèmes de référencement spécifiques à vos sites 26 Janvier 2019
Réponses à 3 questions SEO par une énorme étude My Ranking Metrics Techniques avancées de référencement 20 Avril 2017
Quelques questions SEO spécifiques sur mon site Demandes d'avis et de conseils sur vos sites 5 Juin 2015
Questions sur les mots-clés de Wordpress SEO by Yoast Débuter en référencement 25 Septembre 2014
Quelques questions d'amélioration sur le SEO Débuter en référencement 1 Décembre 2012
Avis a propos site (seo tools) Demandes d'avis et de conseils sur vos sites Jeudi à 23:18
WordPress Référencement SEO et impact de la date de publication Rédaction web et référencement 18 Novembre 2022
Comment choisir le mot-clé pour Yoast SEO Débuter en référencement 12 Novembre 2022
WordPress SEO et lien vers fichiers médias Problèmes de référencement spécifiques à vos sites 8 Novembre 2022
Optimisation SEO de mon site Demandes d'avis et de conseils sur vos sites 7 Novembre 2022
Bloqués sur notre Stratégie de SEO Demandes d'avis et de conseils sur vos sites 30 Octobre 2022
Faut-il éviter d'avoir trop de redirections 301 en SEO ? Référencement Google 14 Octobre 2022
Webinar : comment évaluer l'impact SEO d'un backlink (acheté) Netlinking, backlinks, liens et redirections 11 Octobre 2022
C'est qui un Outreach Specialist SEO ? Netlinking, backlinks, liens et redirections 10 Octobre 2022
WordPress Analyse surprenante de SEOPRESS Débuter en référencement 6 Octobre 2022
Quelle est votre checklist du SEO? Débuter en référencement 4 Octobre 2022
Migrer les images de JPEG à WEBP : quel impact perf et SEO ? Référencement Google 28 Septembre 2022