GWT : Nbr de pages élevées et pourtant des pages en noindex

gripsous · 21 Septembre 2011

Bonjour,
Je viens de recevoir un petit mail de Google sur ma console GWT me disant que le nombre d'urls trouvées sur mon site est extrêmement élevé.
Bon ok, mais pourant depuis un bail j'ai intégré des balises <meta name="robots" content="noindex,nofollow,noodp" /> sur les pages que je ne voulais plus voir indexées (pagination, recherche multiple, ect...).

Dans la sélection des pages que Google me donne pour voir le problème
(Here's a list of sample URLs with potential problems. However, this list may not include all problematic URLs on your site.)

Les urls données pointent vers des pages où il y a bien un noindex, Nofollow ...
Je comprends plus là.

grip

salva · 21 Septembre 2011

gripsous a dit:
Les urls données pointent vers des pages où il y a bien un noindex, Nofollow ...

Les pages figurent-elles aussi dans le robots.txt ?

gripsous · 21 Septembre 2011

Non mais pas besion puisqu'il y a deja un meta robots Noindex dans la page.

UsagiYojimbo · 21 Septembre 2011

J'aurai tendance à penser que le fichier robots.txt doit être cohérent avec la meta robots. Donc, à mon sens, il y a besoin, quitte à bloquer les dossiers adéquats.

WebRankInfo · 21 Septembre 2011

surtout pas ! si tu bloque le crawl via le robots.txt, comment Google saura qu'on veut désindexer les pages ?
si jamais elles sont dans un même répertoire, tu peux en demander la suppression directe via GWT par contre.

salva · 21 Septembre 2011

gripsous a dit:
Non mais pas besion puisqu'il y a deja un meta robots Noindex dans la page.

Ben apparemment et d'après ma propre expérience, si tu ne souhaites pas que Google n'indexe ces pages, il va aussi falloir les inclure dans le robots.txt.

Te restera à supprimer les urls résiduelles une par une avec l'outil de GWT (ou par répertoire si c'est possible dans ton cas).

WebRankInfo · 21 Septembre 2011

pour les supprimer de manière "urgente" via GWT, une balise noindex suffit il me semble

forty · 22 Septembre 2011

Je suis plutôt partisan du noindex,follow car je ne vois pas de raison pour ne pas transmettre un peu de jus reçu par une page non indexée. Sinon il n'y a aucune raison pour que googlebot tombe sur cette page.

salva · 22 Septembre 2011

WebRankInfo a dit:
une balise noindex suffit il me semble

D'après ce que dit gripsous, son expérience ressemble à la mienne.

gripsous a dit:
Je viens de recevoir un petit mail de Google sur ma console GWT me disant que le nombre d'urls trouvées sur mon site est extrêmement élevé.
Bon ok, mais pourant depuis un bail j'ai intégré des balises <meta name="robots" content="noindex,nofollow,noodp" /> sur les pages que je ne voulais plus voir indexées (pagination, recherche multiple, ect...).

Ce qui me chiffonne par contre, comment se fait-il que Google ne les découvre qu'aujourd'hui ?

gripsous · 22 Septembre 2011

=> Ce qui me chiffonne par contre, comment se fait-il que Google ne les découvre qu'aujourd'hui ?

Exactement. Je fais des liens vers ces pages en Noindex,Nofollow (pagination, crosslink) donc à mon avis c'est normal qu'il les trouve, par contre il ne les affiche pas dans l'index. Jusque là rien d'anormal. Mais ce que je comprends pas c'est ce mail que j'ai reçu.

1. Page en Noindex : ok
2. Page non indexée : ok
3. Mail me disant qu'il y en a trop : pas comprendre
4. cherche cohérence dans tout ça

NB: Quant à les désindexer manuellement via GWT ça va prendre un bail car elles ne sont pas placées dans un répertoir spécifique.
Ex :
-domain.com/rubrique/page-abc.html => index
-domain.com/rubrique/page-abd.html => index
-domain.com/rubrique/page-acd.html => Noindex

salva · 22 Septembre 2011

gripsous a dit:
Je fais des liens vers ces pages en Noindex,Nofollow (pagination, crosslink) donc à mon avis c'est normal qu'il les trouve, par contre il ne les affiche pas dans l'index.

Google liste-t-il ces liens sur la page "Accès restreint par un fichier robots.txt" dans GWT => Diagnostic => Erreurs d'exploration

Edit : ben non vu qu'ils ne figurent pas dans le robots.txt .

forty · 22 Septembre 2011

tu devrais avoir des nofollow sur les liens qui pointent vers ces pages en noindex,nofollow si elles ne sont pas dans le robots.txt. Googlebot ne dois pas apprécier de suivre un lien interne qui abouti sur un cul de sac. Si tu veux que googlebot passe par ces pages il faut au moins mettre un follow pour que ces pages aient un intérêt.

gripsous · 22 Septembre 2011

=> tu devrais avoir des nofollow sur les liens qui pointent vers ces pages en noindex,nofollow

Heu... le liens en Nofollow ça sert plus à rien... Google les suit, ça sert juste pour faire des liens vers des partenaires à qui on ne souhaite pas donner de PR.... non ?

forty · 22 Septembre 2011

google suit peut-être les liens nofollow mais il ne peut pas te reprocher de ne pas l'avoir prévenu qu'il n'y a rien à voir. Et puis si c'est bien fait il ne suit pas le lien deux fois.

Tigerfou · 22 Septembre 2011

Bonjour,

Premièrement, ne JAMAIS utiliser à la fois robots.txt disallow et meta robot noindex !
Comme Olivier l'a signalé, si on empêche le crawl d'une page en noindex, Googlebot ne saura pas qu'elle est en noindex, et donc l'indexera si une page pointe vers elle !

Deuxièmement, tu as bien vérifié que ton problème ne venait pas de duplicates ? Genre plusieurs catégories pour accéder à la même page (donc URLs différentes), même en noindex (GWT dit bien "URL trouvées" et non "URL indexées") ?

Johann

gripsous · 22 Septembre 2011

pour être plus précis, il s'agit principalement de résultats de recherche de produit. Exemple :

Chemise à carreaux orange de 100 à 300 euros
Chemise à carreaux orange de 100 à 400 euros

Il peut donc y avoir du DC, mais d'un part j'ai rajouté une balise Noindex,Nofollow et d'autre part j'ai rajouté une balise Rel Canonical vers Chemise à carreaux.