URL persistante dans Google malgré fichier robots.txt

oliviermercure · 22 Mars 2013

Salut à tous,

Je cherche à supprimer des pages de l'index de Google à partir du fichier robot.txt.

Exemple /page-de-mon-site existe aussi en

/page-de-mon-site?p=2
/page-de-mon-site?p=3
/page-de-mon-site?p=4

J'ai donc indiqué dans le fichier robots.txt :

Disallow: /page-de-mon-site? pour supprimer de l'index les pages qui provoquent du contenu dupliqué.

Mais après dix jours et la certitude dans Google Webmaster Tools que Google a bien pris en compte le nouveau fichier robots.txt contenant ces indications, les pages sont toujours dans l'index.

La mise à jour de l'index ne se fait peut-être pas dès la prise en compte du fichier robot.txt ?

Supermaury · 22 Mars 2013

Bonjour.

Tu peux aussi définir ton paramètre via les outils webmaster > configuration > paramètres d'url afin de préciser à quoi il sert.

Olivier a fait un article à ce sujet :
https://www.webrankinfo.com/forum/t...tres-durl-dans-google-webmaster-tools.145325/

@++

oliviermercure · 22 Mars 2013

Ok merci

longo600 · 22 Mars 2013

Bonjour,

de mémoire, si l'url n'est pas complète il ne faut pas rajouter une étoile au niveau du tronquage?
Disallow: /page-de-mon-site?*

il faut ensuite supprimer l'url ou les urls dans WMT

WebRankInfo · 22 Mars 2013

oliviermercure a dit:
Je cherche à supprimer des pages de l'index de Google à partir du fichier robot.txt.

ça démarre mal, car le fichier robots.txt n'est pas fait pour ça.
en interdisant des URL dans ce fichier, tu demandes à Google de ne plus retourner voir les pages (pour mise à jour dans l'index)
donc il obéit

pour désindexer des pages, il faut utiliser la balise meta robots noindex (et ne pas bloquer les pages dans le robots.txt)

si tu es pressé et que tu n'as pas beaucoup de pages à supprimer, tu peux accélérer les choses en faisant une demande dans GWT. Il faudra dans ce cas remplir au moins 1 des conditions suivantes :
- la page n'est plus disponible et renvoie un code 404 ou 410
- la page contient une balise meta robots noindex
- la page est bloquée dans le robots.txt (OK, c'est contradictoire avec le début de mon message, mais ça ne marche qu'en association avec une demande de suppression manuelle dans GWT)

vinset · 22 Mars 2013

Et mettre en place un sitemap sans lister ces pages ?

Lightonseo · 22 Mars 2013

vinset a dit:
Et mettre en place un sitemap sans lister ces pages ?

Ca ne sert à rien, Olivier a donner la réponse. Donc je récapitule

1) Modifier le robots.txt pour ré-autoriser Google à visiter les pages à désindexer
2) Sur les pages en question placer la balise meta robots

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

ou selon les besoins

<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">

Une fois qu'elles sont désindexées, si on veut empêcher les spiders de la visiter alors on peu réutiliser le robots.txt

Astral God · 23 Mars 2013

Ou, dans un .htaccess:

Redirect gone /page-a-effacer.html
(si la page à été supprimée, évidement)

anemone-clown · 23 Mars 2013

WebRankInfo a dit:
pour désindexer des pages, il faut utiliser la balise meta robots noindex

Est-ce qu'il ne faut pas ajouter l'attribut "noarchive" pour définitivement supprimer une page déjà indexée? :?:

WebRankInfo · 25 Mars 2013

je ne vois pas pourquoi, noarchive ne fait qu'empêcher les internautes d'accéder au cache

oliviermercure · 30 Mars 2013

Pas mal de choses à creuser.
Le problème est le suivant.
Il s'agit en fait de ne pas faire indexer des pages Prestashop de produits qui sont identifiées page 2, page 3, page 4, pour une même rubrique.
La page apparaît sous sa forme normale dans Google : example.com/page mais aussi avec les autre pages avec reprise du contenu:
example.com/page?p=2
example.com/page?p=3
example.com/page?p=4

Je ne peux pas mettre de balises <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> car tout va être désindéxer et ce n'est pas ce que je veux.
J'ai indiqué dans robots.txt les pages que je veux pas indexer
Disallow: /rubrique?p=2
Disallow: /rubrique?p=3
Disallow: /rubrique?p=4

J'ai aussi indiqué dans les "paramètres URL" de GWT le paramètre "p" selon les recommandations de SuperMaury.

Mais elles sont toujours indexées dans Google.

Voilà pour les faits.

oliviermercure · 2 Avril 2013

Salut à Tous,

Aujourd'hui c'est tout bon :

Les urls ont été supprimées de l'index Google dans GWT et spécifié en Disallow dans le fichier robots.txt.

merci pour vos lumières.

Olivier