GWT : Nbr de pages élevées et pourtant des pages en noindex

WRInaute passionné
Bonjour,
Je viens de recevoir un petit mail de Google sur ma console GWT me disant que le nombre d'urls trouvées sur mon site est extrêmement élevé.
Bon ok, mais pourant depuis un bail j'ai intégré des balises <meta name="robots" content="noindex,nofollow,noodp" /> sur les pages que je ne voulais plus voir indexées (pagination, recherche multiple, ect...).

Dans la sélection des pages que Google me donne pour voir le problème
(Here's a list of sample URLs with potential problems. However, this list may not include all problematic URLs on your site.)

Les urls données pointent vers des pages où il y a bien un noindex, Nofollow ...
Je comprends plus là.

grip
 
WRInaute accro
J'aurai tendance à penser que le fichier robots.txt doit être cohérent avec la meta robots. Donc, à mon sens, il y a besoin, quitte à bloquer les dossiers adéquats.
 
Olivier Duffez (admin)
Membre du personnel
surtout pas ! si tu bloque le crawl via le robots.txt, comment Google saura qu'on veut désindexer les pages ?
si jamais elles sont dans un même répertoire, tu peux en demander la suppression directe via GWT par contre.
 
WRInaute accro
gripsous a dit:
Non mais pas besion puisqu'il y a deja un meta robots Noindex dans la page.
Ben apparemment et d'après ma propre expérience, si tu ne souhaites pas que Google n'indexe ces pages, il va aussi falloir les inclure dans le robots.txt.

Te restera à supprimer les urls résiduelles une par une avec l'outil de GWT (ou par répertoire si c'est possible dans ton cas).
 
WRInaute passionné
Je suis plutôt partisan du noindex,follow car je ne vois pas de raison pour ne pas transmettre un peu de jus reçu par une page non indexée. Sinon il n'y a aucune raison pour que googlebot tombe sur cette page.
 
WRInaute accro
WebRankInfo a dit:
une balise noindex suffit il me semble
D'après ce que dit gripsous, son expérience ressemble à la mienne.

gripsous a dit:
Je viens de recevoir un petit mail de Google sur ma console GWT me disant que le nombre d'urls trouvées sur mon site est extrêmement élevé.
Bon ok, mais pourant depuis un bail j'ai intégré des balises <meta name="robots" content="noindex,nofollow,noodp" /> sur les pages que je ne voulais plus voir indexées (pagination, recherche multiple, ect...).
Ce qui me chiffonne par contre, comment se fait-il que Google ne les découvre qu'aujourd'hui ?
 
WRInaute passionné
=> Ce qui me chiffonne par contre, comment se fait-il que Google ne les découvre qu'aujourd'hui ?

Exactement. Je fais des liens vers ces pages en Noindex,Nofollow (pagination, crosslink) donc à mon avis c'est normal qu'il les trouve, par contre il ne les affiche pas dans l'index. Jusque là rien d'anormal. Mais ce que je comprends pas c'est ce mail que j'ai reçu.

1. Page en Noindex : ok
2. Page non indexée : ok
3. Mail me disant qu'il y en a trop : pas comprendre
4. cherche cohérence dans tout ça :)

NB: Quant à les désindexer manuellement via GWT ça va prendre un bail car elles ne sont pas placées dans un répertoir spécifique.
Ex :
-domain.com/rubrique/page-abc.html => index
-domain.com/rubrique/page-abd.html => index
-domain.com/rubrique/page-acd.html => Noindex
:)
 
WRInaute accro
gripsous a dit:
Je fais des liens vers ces pages en Noindex,Nofollow (pagination, crosslink) donc à mon avis c'est normal qu'il les trouve, par contre il ne les affiche pas dans l'index.
Google liste-t-il ces liens sur la page "Accès restreint par un fichier robots.txt" dans GWT => Diagnostic => Erreurs d'exploration

Edit : ben non vu qu'ils ne figurent pas dans le robots.txt .
 
WRInaute passionné
tu devrais avoir des nofollow sur les liens qui pointent vers ces pages en noindex,nofollow si elles ne sont pas dans le robots.txt. Googlebot ne dois pas apprécier de suivre un lien interne qui abouti sur un cul de sac. Si tu veux que googlebot passe par ces pages il faut au moins mettre un follow pour que ces pages aient un intérêt.
 
WRInaute passionné
=> tu devrais avoir des nofollow sur les liens qui pointent vers ces pages en noindex,nofollow

Heu... le liens en Nofollow ça sert plus à rien... Google les suit, ça sert juste pour faire des liens vers des partenaires à qui on ne souhaite pas donner de PR.... non ?
 
WRInaute passionné
google suit peut-être les liens nofollow mais il ne peut pas te reprocher de ne pas l'avoir prévenu qu'il n'y a rien à voir. Et puis si c'est bien fait il ne suit pas le lien deux fois.
 
WRInaute discret
Bonjour,

Premièrement, ne JAMAIS utiliser à la fois robots.txt disallow et meta robot noindex !
Comme Olivier l'a signalé, si on empêche le crawl d'une page en noindex, Googlebot ne saura pas qu'elle est en noindex, et donc l'indexera si une page pointe vers elle !

Deuxièmement, tu as bien vérifié que ton problème ne venait pas de duplicates ? Genre plusieurs catégories pour accéder à la même page (donc URLs différentes), même en noindex (GWT dit bien "URL trouvées" et non "URL indexées") ?

Johann
 
WRInaute passionné
pour être plus précis, il s'agit principalement de résultats de recherche de produit. Exemple :

Chemise à carreaux orange de 100 à 300 euros
Chemise à carreaux orange de 100 à 400 euros

Il peut donc y avoir du DC, mais d'un part j'ai rajouté une balise Noindex,Nofollow et d'autre part j'ai rajouté une balise Rel Canonical vers Chemise à carreaux.
 
Discussions similaires
Haut