URL persistante dans Google malgré fichier robots.txt

WRInaute occasionnel
Salut à tous,

Je cherche à supprimer des pages de l'index de Google à partir du fichier robot.txt.

Exemple /page-de-mon-site existe aussi en

/page-de-mon-site?p=2
/page-de-mon-site?p=3
/page-de-mon-site?p=4

J'ai donc indiqué dans le fichier robots.txt :

Disallow: /page-de-mon-site? pour supprimer de l'index les pages qui provoquent du contenu dupliqué.

Mais après dix jours et la certitude dans Google Webmaster Tools que Google a bien pris en compte le nouveau fichier robots.txt contenant ces indications, les pages sont toujours dans l'index.

La mise à jour de l'index ne se fait peut-être pas dès la prise en compte du fichier robot.txt ?
 
WRInaute passionné
Bonjour,

de mémoire, si l'url n'est pas complète il ne faut pas rajouter une étoile au niveau du tronquage?
Disallow: /page-de-mon-site?*

il faut ensuite supprimer l'url ou les urls dans WMT
 
Olivier Duffez (admin)
Membre du personnel
oliviermercure a dit:
Je cherche à supprimer des pages de l'index de Google à partir du fichier robot.txt.
ça démarre mal, car le fichier robots.txt n'est pas fait pour ça.
en interdisant des URL dans ce fichier, tu demandes à Google de ne plus retourner voir les pages (pour mise à jour dans l'index)
donc il obéit

pour désindexer des pages, il faut utiliser la balise meta robots noindex (et ne pas bloquer les pages dans le robots.txt)

si tu es pressé et que tu n'as pas beaucoup de pages à supprimer, tu peux accélérer les choses en faisant une demande dans GWT. Il faudra dans ce cas remplir au moins 1 des conditions suivantes :
- la page n'est plus disponible et renvoie un code 404 ou 410
- la page contient une balise meta robots noindex
- la page est bloquée dans le robots.txt (OK, c'est contradictoire avec le début de mon message, mais ça ne marche qu'en association avec une demande de suppression manuelle dans GWT)
 
Nouveau WRInaute
vinset a dit:
Et mettre en place un sitemap sans lister ces pages ?

Ca ne sert à rien, Olivier a donner la réponse. Donc je récapitule

1) Modifier le robots.txt pour ré-autoriser Google à visiter les pages à désindexer
2) Sur les pages en question placer la balise meta robots

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

ou selon les besoins

<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">

Une fois qu'elles sont désindexées, si on veut empêcher les spiders de la visiter alors on peu réutiliser le robots.txt
 
WRInaute passionné
WebRankInfo a dit:
pour désindexer des pages, il faut utiliser la balise meta robots noindex
Est-ce qu'il ne faut pas ajouter l'attribut "noarchive" pour définitivement supprimer une page déjà indexée? :?:
 
Olivier Duffez (admin)
Membre du personnel
je ne vois pas pourquoi, noarchive ne fait qu'empêcher les internautes d'accéder au cache
 
WRInaute occasionnel
Pas mal de choses à creuser.
Le problème est le suivant.
Il s'agit en fait de ne pas faire indexer des pages Prestashop de produits qui sont identifiées page 2, page 3, page 4, pour une même rubrique.
La page apparaît sous sa forme normale dans Google : example.com/page mais aussi avec les autre pages avec reprise du contenu:
example.com/page?p=2
example.com/page?p=3
example.com/page?p=4

Je ne peux pas mettre de balises <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> car tout va être désindéxer et ce n'est pas ce que je veux.
J'ai indiqué dans robots.txt les pages que je veux pas indexer
Disallow: /rubrique?p=2
Disallow: /rubrique?p=3
Disallow: /rubrique?p=4

J'ai aussi indiqué dans les "paramètres URL" de GWT le paramètre "p" selon les recommandations de SuperMaury.

Mais elles sont toujours indexées dans Google.

Voilà pour les faits.
 
WRInaute occasionnel
Salut à Tous,

Aujourd'hui c'est tout bon :

Les urls ont été supprimées de l'index Google dans GWT et spécifié en Disallow dans le fichier robots.txt.

merci pour vos lumières.

Olivier
 
Discussions similaires
Haut