Analyse de logs : Crawl Googlebot sur URLs avec paramètres de tracking

Donky · 3 Avril 2015

Bonjour,

Je viens de récupérer les analyses de logs Googlebot pour un site, afin d'identifier comment ces petits robots crawlent ce site.
Les données récoltées s'étendent sur une période d'un jour uniquement. Mais cela est suffisant pour identifier déjà un problème : au moins la moitié des URLs crawlées sont des pages contenant des paramètres de tracking utilisés pour les campagnes de liens sponsorisés (Adwords et autre). Autant dire que le crawle n'est pas du tout optimisé.
A partir de là, je me pose plusieurs questions :

1. Je croyais que les robots savaient faire la différence entre les paramètres liés à la structure du site (filtrage, tri,...) et ceux liés à des campagnes. Comment arrivent-ils à crawler ces URLs ? Ne sont-ils pas censés tous simplement les ignorer ? J'imagine que les robots de Google reconnaissent très bien ces paramètres de tracking (gclid,...) pourtant.

2. Comment empêcher le crawl sur ces URLs afin d'optimiser la qualité de celui-ci ? Sachant que ces URLs ne sont pas indexées, et forcément, créées uniquement pour la gestion des campagnes.

Si quelqu'un à une ou plusieurs solutions ou même pistes de réflexion, je suis preneur!

Merci d'avance pour vos éventuels retours.

WebRankInfo · 3 Avril 2015

en effet c'est étonnant

il faudrait vérifier qu'en interne, il n'existe (évidemment) aucun lien vers ces URL
tu peux lancer un audit technique RMTech (outil que j'ai conçu chez Ranking Metrics), il pourrait bien t'aider.

pour bloquer le crawl de ces URL, tu peux utiliser le fichier robots.txt

loubet · 3 Avril 2015

une explication possible est que google prend en compte l'html généré par le javascript, donc adsense d'où les liens avec paramètres.
dans gwt, j'indiquerais de ne pas prendre en compte certains paramètres.
je mettrais une balise canonical url

WebRankInfo · 3 Avril 2015

non, ça ne vient pas d'adsense (jamais vu ça chez moi qui ai adsense depuis les débuts)
le réglage des paramètres d'URL dans GWT n'est pas une bonne solution je trouve (en + elle marche mal) : il vaut mieux régler le pb en amont, sur le site
la canonique peut servir mais pas pour empêcher le crawl des URL indésirables

Donky · 7 Avril 2015

Bonjour,

Merci pour vos retours.
Effectivement, mettre une canonique n’empêchera pas le crawl par les robots.
Je viens de m'inscrire à l'outil que vous m'avez conseillé, on verra ce que ça donne. Et selon le cas, je mettrai à jour le robots.txt.

Merci beaucoup!