délai de prise en compte du <meta name="robots" content="none" /> pour pages déjà indéxées

doncarlos

Nouveau WRInaute
Bonjour,
cette balise a été ajoutée à de nombreuses pages de mon site il y a 2mois.
Aujourd'hui, ces pages sont encore trouvées via une recherche google et sont encore indéxées.

Pour information, j'ai effectué cette action pour lutter contre la duplication de contenu.

Après avoir lu le forum :
1/ Certains conseillent d'envoyer un code 404 :
Dans ce cas, est-ce que ma page s'affiche?
Comment faire?

2/ D'autre, propose d'accelérer la désindexation, ajouter un filfrage dans le robots.txt?
Ok, si je veux désindexer toutes les pages qui commence par produit-catalogue
comme www.monsite.com/produit-catalogue-xxxxx.html.
Le code ci-dessous fonctionne t-il dans le robots.txt?
User-agent: *
Disallow: /produit-catalogue-*

Merci.
 

doncarlos

Nouveau WRInaute
merci pour vos 2 réponses:

Remarque aux 2 réponses:
la première réponse :
Si c'est pour éviter le duplicate content, le mieux est d'utiliser la balise META "canonical". Pour en savoir plus: https://www.webrankinfo.com/dossiers/techniques/url-canonique
Je ne peux utiliser la balise META "canonical" car je lis un catalogue commerçant et je n'ai pas le lien de la page originale.
En outre, même si je l'avais, le texte est différent sur le site original mais le catalogue est distribué sur d'autre site.

la deuxième réponse :
le mieux est d'utiliser le robots.txt
Est-ce que mon code est correct?
Code:
User-agent: *
Disallow: /produit-catalogue-*
 

doncarlos

Nouveau WRInaute
Après une recherche sur le web, si j'ai bien compris :
pour filtrer les pages commençant par produit-catalogue-******-.html
je code ça dans le robots.txt

Code:
User-agent: *
Disallow: /produit-catalogue
 

Discussions similaires

Haut