est-il préférable de disallow des pages non indexées

titiplanti · 29 Janvier 2019

Bonjour,

Certaines pages de mon site étaient de faille qualité, j'ai donc ajouté le code meta name="robots" content="noindex,follow" à ces pages.*

Maintenant qu'elle sont bien désindexées, je me pose la question de savoir s'il est préférable d'ajouter la commande disallow dans le robots.txt

En fait GSC me dit qu'elles ne sont pas indexées mais je les trouve toujours dans les résultats de recherches.

WebRankInfo · 29 Janvier 2019

Je me demande surtout pourquoi elles devraient rester sur le site, y a-t-il une raison ?

titiplanti · 29 Janvier 2019

ah ben c'est le module testimonials de wordpress qui fait une page pour chaque témoignage, il fonctionne comme ça.

rick38 · 30 Janvier 2019

En principe pas d'intérêt à rajouter dans robots.txt, ça fait d'autres choses à gérer et donc multiplie le risque de faire des bétises... (parce qu'il faut penser à tenir à jour ce fichier, donc moi perso j'en fais pas)

spout · 30 Janvier 2019

Tous mes fichiers robots.txt se composent de la sorte :

Code:

WebRankInfo · 30 Janvier 2019

si ces pages sont nombreuses et ne présentent même pas l'intérêt d'être crawlées, autant les bloquer au crawl

Furtif · 30 Janvier 2019

WebRankInfo a dit:
autant les bloquer au crawl

Mais si il arrive qu'une page bloquée au crawl, beneficie de backlinks elle sera indexée. Le noindex s'impose..

WebRankInfo · 30 Janvier 2019

le noindex est déjà en place

teralgo · 30 Janvier 2019

spout a dit:
Tous mes fichiers robots.txt se composent de la sorte :

Code:

Code:

User-agent: *
Swallow: /

Furtif · 30 Janvier 2019

John Mueller
"C'est un peu compliqué avec le noindex. Il existe je pense une fausse idée en général dans la communauté SEO. En cela, avec un noindex, c'est encore un cas dans lequel nous voyons le noindex. Considérons que dans un premier cas, vous ne voulez pas que cette page apparaisse dans les résultats de recherche. Nous allons toujours la conserver dans notre index, nous ne l'afficherons pas mais nous pourrons suivre ses liens. Mais si nous voyons le noindex présent plus longtemps alors nous pensons que cette page ne veut vraiment pas être utilisée dans la recherche, donc nous la retirerons complètement. Et de ce fait nous ne suivrons pas les liens quoi qu'il arrive. Donc, le cas d'un noindex follow est en quelque sorte la même chose qu'un noindex, nofollow. Sur le long terme cela ne fait pas de grandes différences."

colonies · 30 Janvier 2019

Tiens j'en profite pour poser une autre question mais toujours dans le même style : si on compte envoyer un header X-Robots-Tag: none, est-ce qu'on peut se contenter de ça et ne pas générer l'intégralité de la page ?

D'après ce que j'ai constaté, si on met un ensemble de pages en disallow dans le robots.txt, il ne les supprime pas complètement de l'index pour autant, il conserve les URL même si les descriptions de la page deviennent progressivement inaccessibles.

Afin de les virer complètement, un X-Robots-Tag: none me semble approprié. Comme on lui indique qu'on ne veut plus qu'il référence la page dès les headers, est-ce que Google va trouver étrange qu'on ne lui envoie pas de contenu même si les visiteurs peuvent accéder à ces pages ?

Par exemple, Google a crawlé toutes les pages de profil de membre d'un forum. Afin d'éviter de charger inutilement le serveur, est-ce qu'on peut envisager de mettre au début de la page membre.php (mettons) : "si Googlebot => X-Robots-Tag: none => fin" et s'épargner toute connexion à la base de données, génération de la page HTML etc ?

WebRankInfo · 30 Janvier 2019

c'est donc du cloaking que n'aime pas Google
si ces URL sont dans un répertoire, autant le bloquer via robots.txt (et le faire désindexer d'un coup dans la SC)

colonies · 30 Janvier 2019

C'est aussi ce que je crains : que Google considère ça comme du cloaking. Bon, je ne vais pas risquer le coup... même si je pense que ça devrait être autorisé (présenter un contenu différent pour être bien référencé doit être pénalisé, mais pour être déréférencé... "éthiquement" je ne vois pas de souci. Mais si en pratique Google n'a pas prévu le coup et que ça vaut d'être sanctionné, non merci).

Et sinon, non, ça n'est pas dans un dossier séparé, malheureusement. Mais merci pour ta remarque, je croyais qu'on ne pouvait déréférencer les pages qu'individuellement. Du coup je vais chercher un peu, ça pourra peut-être me servir plus tard.