Supprimer pages indexées

passion · 11 Octobre 2020

Bonjour,

Je suis devant un casse-tête et qui est surtout stupide !
Mon fichier robot interdit l'indexation d'un répertoire. Il est évident que les pages de ce répertoire ne devront pas être indexées.
Seulement voilà, la console search m'indique que certaines de ces pages ont été indexées dans la rubrique "Indexée, mais non envoyée via un sitemap".
Non seulement les pages sont bloquées par le fichier robot mais en plus, elles possèdent une meta=noindex !
Je me suis dit avec ça, les moteurs vont pas me les indexer... et bien si !

Maintenant je me retrouve à devoir bidouiller pour que googlebot comprenne PAS INDEXER !

J'ai utilisé le formulaire "suppression d'urls" en renseignant le répertoire pour qu'ils les virent de l'index. Mais ça, c'est temporaire !
Alors j'ai créé un sitemap qui liste donc ces urls pour qu'il vienne enfin faire la maj mais là, maintenant la console search répond :

Top Errors

Errors can prevent your page or feature from appearing in Search results. Les erreurs suivantes ont été trouvées sur votre site :

URL envoyée bloquée par le fichier robots.txt

Nous vous recommandons de corriger ces problèmes au plus vite afin d'optimiser le placement de votre site dans la recherche Google.

Bah oui gros nigaud !
Là, tu en tiens compte !

Maintenant si je désactive la protection du répertoire dans le fichier robots, ça va être la porte ouverte pour indexer TOUTES les pages !

C'est complètement stupide et un non-sens !
Je ne sais pas quoi faire !
De l'aide ?

Merci

WebRankInfo · 12 Octobre 2020

passion a dit:
Mon fichier robot interdit l'indexation d'un répertoire

en fait non, car le robots.txt n'a pas d'impact sur l'indexabilité, seulement sur le crawl. OK, dans ce cas, on peut trouver que c'est très proche.

passion a dit:
Non seulement les pages sont bloquées par le fichier robot mais en plus, elles possèdent une meta=noindex !
Je me suis dit avec ça, les moteurs vont pas me les indexer... et bien si !

sans doute qu'à une époque, tes pages n'avaient pas de noindex. Et Google était passé les crawler, donc les avait indexées. Maintenant qu'elles sont bloquées au crawl, il ne retourne plus les voir, donc il ne peut pas constater qu'il y a du noindex.

j'insiste, car pour Google le robots.txt n'est qu'une indication qu'il ne respecte pas dans 100% des cas, contrairement à la noindex.

Si tout est dans un seul répertoire, et que ce répertoire ne contient rien à faire indexer, alors tu peux faire une demande de suppression (=désindexation) de ce répertoire. En théorie ça ne devrait pas être temporaire car tu as pris les mesures pour empêcher l'indexation.

S'il n'y a pas trop d'URL dans ce répertoire, tu peux aussi supprimer l'interdiction de crawl dans le fichier robots.txt et laisser les noindex.

passion · 12 Octobre 2020

WebRankInfo a dit:
sans doute qu'à une époque, tes pages n'avaient pas de noindex

Non c'est ce qui m'étonne. Elles ont toujours été noindex.

La réponse vient d'une subtilité de google:

...always respects robots.txt, but this doesn't help if someone else links to it). This is marked as a warning because we're not sure if you intended to block the page from search results. If you do want to block this page, robots.txt is not the correct mechanism to avoid being indexed. To avoid being indexed you should either use 'noindex' or prohibit anonymous access to the page using auth...

A robotted page can still be indexed if linked to from from other sites
While Google won't crawl or index the content blocked by robots.txt, we might still find and index a disallowed URL if it is linked from other places on the web.

Pour résumer, mes pages ont toujours été noindex et bloquées par le fichier robot mais des membres ont partagées ces pages. Au yeux de google, comme elles sont partagées, elles méritent peut-être d'être indexées mais comme elles ne peuvent pas être crawler pour en vérifier le statut alors GG décide de les indexer dans le doute. En définitif, je ne dois pas empêcher le crawl. Uniquement utiliser la meta=noindex

J'ai compris la subtilité entre le noindex et le fichier robot !
Soit on utilise la meta=noindex ou soit on bloque par un htaccess si le répertoire est strictement privé.
La seule alternative est alors la balise meta=noindex.

J'ai viré le fichier robot et confirmer avoir "corriger le problème" sur la console search. Mes pages concernées sont évidemment renseignées meta=noindex.

Je vais surveiller que les pages de mon répertoire soient bien désindexées prochainement.
Je me rends compte que beaucoup font l'erreur sur l'utilité d'un fichier robots en pensant que ça va protéger de l'indexation !
A la rigueur, je ne vois même pas l'utilité du fichier robots. On ne peut même pas augmenter son capital crawl en interdisant googlebot de passer sur certaines pages puisqu'elles risquent à terme d'être indexées et ensuite bidouiller pour les virer !

En clair, je vais gagner sur mon indice qualitatif mais perdre sur mon budget crawl !

Merci pour l'aide

WebRankInfo · 13 Octobre 2020

lecture suggérée (pour celles et ceux qui lisent cette discussion) pour ne plus confondre robots.txt et blocage de l'indexation

passion · 13 Octobre 2020

Merci article intéressant mais j'y mettrai une nuance

Utilisez disallow our interdire le crawl des pages qui n’ont aucun intérêt pour le SEO (et qui ne sont même pas censées recevoir des backlinks), ça pourra vous aider à faire crawler les autres pages plus efficacement

Le disallow n'aide pas le seo. Il suffit de voir mon cas concret.
En interdisant l'accès au statut de ta page, Google peut indexer ta page malgré tout. Donc où est l'intérêt seo?

WebRankInfo · 13 Octobre 2020

ça reste rare que Google crawle les pages bloquées au robots.txt, mais je suis moi aussi déçu de voir que Google ne le respecte pas assez

passion · 13 Octobre 2020

Il y a vraiment une séparation des rôles.
Le disallow renseigne uniquement l'interdiction du crawl donc en définitif car ne sert à rien
A la rigueur utile pour renseigner des URL de fichiers pdf statiques etc... assez lourd et venant prendre du budget crawl.
Mais pour le reste c'est obligatoire noindex