Ne pas indexer ni faire crawler

alphakka · 10 Juin 2016

Bonjour,

Petite question pour un site, où je souhaiterais qu'un grand nombre de pages ne soient pas crawlées ni indexées.

Ces pages sont en noindex, ou avec canonical, comment éviter également leur crawl (suite au message de Google "Grand nombre d'URL détectées") ? A priori, je pensais qu'il ne fallait pas ajouter également les directives au robots.txt pour que Google voit le noindex et jusqu'à maintenant, je préférai mettre en noindex un contenu qui n'a pas d'importance pour Google et les visiteurs du site. Cela ne semble pas suffisant. Analyse de logs prévue mais pas pour tout de suite...

Merci pour votre avis.

jeanluc · 10 Juin 2016

Bonjour,

Pour éviter le crawl, il faut l'interdire dans le robots.txt. Si une page n'est pas crawlée, il est très peu probable qu'elle ressorte dans les résultats de recherche.

Si tu utilises la balise noindex dans la page, Google doit lire la page (donc la crawler) pour lire la balise.

Jean-Luc

Koxin-L.fr · 10 Juin 2016

Slt,

La solution du robots.txt et la plus simple, même si nombre de moteurs ne la respecte pas.

Maintenant quel est pour toi cette nécessiter de ne SURTOUT pas laisser crawler ?

alphakka · 13 Juin 2016

Merci pour vos réponses.

La nécessité de ne surtout pas laisser crawler est de répondre à la demande de Google, qui envoie souvent le message "Grand nombre d'URL détectées sur le site... Cela rend l'exploration de votre site Web plus difficile et peut empêcher les internautes de trouver votre contenu récent dans les résultats de recherche. Googlebot explore peut-être un grand nombre d'URL distinctes qui pointent vers un contenu identique ou semblable, ou explore des parties de votre site qu'il n'est pas censé explorer. Dans ce cas, il est possible que Googlebot utilise beaucoup plus de bande passante que nécessaire ou ne parvienne pas à indexer tout le contenu de votre site."

Je pense que dans ce cas, la solution la plus simple serait effectivement d'éviter le crawl via le fichier robots.txt, je pense laisser cependant le noindex sur chaque page (Google ne pourra pas voir l'info, tant pis, au moins il ne crawlera pas la page).

Bonne journée à tous !

WebRankInfo · 13 Juin 2016

si ces pages ne sont pas indexées (je suppose que c'est le cas car elles ont du noindex et ne sont pas bloquées au crawl), alors ta solution est de les bloquer au crawl dans le robots.txt

mais la meilleure solution est de repenser le site en se demandant si c'est normal de générer autant de pages sans intérêt pour le SEO