est-il préférable de disallow des pages non indexées

WRInaute occasionnel
Bonjour,

Certaines pages de mon site étaient de faille qualité, j'ai donc ajouté le code meta name="robots" content="noindex,follow" à ces pages.*

Maintenant qu'elle sont bien désindexées, je me pose la question de savoir s'il est préférable d'ajouter la commande disallow dans le robots.txt

En fait GSC me dit qu'elles ne sont pas indexées mais je les trouve toujours dans les résultats de recherches.
 
WRInaute occasionnel
ah ben c'est le module testimonials de wordpress qui fait une page pour chaque témoignage, il fonctionne comme ça.
 
WRInaute passionné
En principe pas d'intérêt à rajouter dans robots.txt, ça fait d'autres choses à gérer et donc multiplie le risque de faire des bétises... (parce qu'il faut penser à tenir à jour ce fichier, donc moi perso j'en fais pas)
 
WRInaute accro
John Mueller
"C'est un peu compliqué avec le noindex. Il existe je pense une fausse idée en général dans la communauté SEO. En cela, avec un noindex, c'est encore un cas dans lequel nous voyons le noindex. Considérons que dans un premier cas, vous ne voulez pas que cette page apparaisse dans les résultats de recherche. Nous allons toujours la conserver dans notre index, nous ne l'afficherons pas mais nous pourrons suivre ses liens. Mais si nous voyons le noindex présent plus longtemps alors nous pensons que cette page ne veut vraiment pas être utilisée dans la recherche, donc nous la retirerons complètement. Et de ce fait nous ne suivrons pas les liens quoi qu'il arrive. Donc, le cas d'un noindex follow est en quelque sorte la même chose qu'un noindex, nofollow. Sur le long terme cela ne fait pas de grandes différences."
 
WRInaute impliqué
Tiens j'en profite pour poser une autre question mais toujours dans le même style : si on compte envoyer un header X-Robots-Tag: none, est-ce qu'on peut se contenter de ça et ne pas générer l'intégralité de la page ?

D'après ce que j'ai constaté, si on met un ensemble de pages en disallow dans le robots.txt, il ne les supprime pas complètement de l'index pour autant, il conserve les URL même si les descriptions de la page deviennent progressivement inaccessibles.

Afin de les virer complètement, un X-Robots-Tag: none me semble approprié. Comme on lui indique qu'on ne veut plus qu'il référence la page dès les headers, est-ce que Google va trouver étrange qu'on ne lui envoie pas de contenu même si les visiteurs peuvent accéder à ces pages ?

Par exemple, Google a crawlé toutes les pages de profil de membre d'un forum. Afin d'éviter de charger inutilement le serveur, est-ce qu'on peut envisager de mettre au début de la page membre.php (mettons) : "si Googlebot => X-Robots-Tag: none => fin" et s'épargner toute connexion à la base de données, génération de la page HTML etc ?
 
Olivier Duffez (admin)
Membre du personnel
c'est donc du cloaking que n'aime pas Google
si ces URL sont dans un répertoire, autant le bloquer via robots.txt (et le faire désindexer d'un coup dans la SC)
 
WRInaute impliqué
C'est aussi ce que je crains : que Google considère ça comme du cloaking. Bon, je ne vais pas risquer le coup... même si je pense que ça devrait être autorisé (présenter un contenu différent pour être bien référencé doit être pénalisé, mais pour être déréférencé... "éthiquement" je ne vois pas de souci. Mais si en pratique Google n'a pas prévu le coup et que ça vaut d'être sanctionné, non merci).

Et sinon, non, ça n'est pas dans un dossier séparé, malheureusement. Mais merci pour ta remarque, je croyais qu'on ne pouvait déréférencer les pages qu'individuellement. Du coup je vais chercher un peu, ça pourra peut-être me servir plus tard.
 
Discussions similaires
Haut