Google ne respecte pas noindex et les consignes du robot.txt

Nouveau WRInaute
C'est vraiment pénible ça ! je vient de publier 4 sites sur des thématiques différentes (donc des nouveaux sites) et je constate que des url appartenant à des dossiers précisés dans le robot.txt ou comportant des balises noindex, nofolow, noarchive sont systématiquement indexé...
J'ai constaté cela à de nombreuse reprises (je veux dire sur de nombreux sites)

Par exemple :

User-agent: *
Disallow: /noindex/


https://www.google.fr/search?sourceid=na ... hats%2Enet

C'est casse pied : ça fait plein de pages duplicate !

QQ a t il une solution ?
1 - pour supprimer les pages indexées
2 - éviter que cela se reproduise

Merci de toute aide sur le sujet
 
WRInaute discret
Je confirme et je suis très intéressé aussi par une solution (nous avons tout tenté y compris : <META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW"> et cela, sans résultat...)
 
WRInaute discret
Et si simplement, ce que l'on prend tous comme une manifestation du duplicate serait un signal de la part de google qui affirme "hé, je connais cette url, mais je ne touche plus à cette page et ne met pas de description" pour telle ou telle raison: interdiction d'indexation, page dupliquée, page redirigée, etc.

Dans ce cas, on distinguerait indexation d'url et indexation de page. Ce qui voudrait dire que Google joue sur les mots avec sa facheuse habitude de tout indexer.
 
WRInaute accro
Re: google ne respecte pas noindex et les consignes du robot

Jaki a dit:
...des dossiers précisés dans le robot.txt ...

...avec un "s" à robotS.txt ça marche mieux...

perso, j'ai aucune page sous robots.txt >> disallow qui n'est indexée.

aucune exp. en matière de noindex,nofollow (je préfère fourrer la bête...)
 
Discussions similaires
Haut