Bonjour,
Je viens de récupérer les analyses de logs Googlebot pour un site, afin d'identifier comment ces petits robots crawlent ce site.
Les données récoltées s'étendent sur une période d'un jour uniquement. Mais cela est suffisant pour identifier déjà un problème : au moins la moitié des URLs crawlées sont des pages contenant des paramètres de tracking utilisés pour les campagnes de liens sponsorisés (Adwords et autre). Autant dire que le crawle n'est pas du tout optimisé.
A partir de là, je me pose plusieurs questions :
1. Je croyais que les robots savaient faire la différence entre les paramètres liés à la structure du site (filtrage, tri,...) et ceux liés à des campagnes. Comment arrivent-ils à crawler ces URLs ? Ne sont-ils pas censés tous simplement les ignorer ? J'imagine que les robots de Google reconnaissent très bien ces paramètres de tracking (gclid,...) pourtant.
2. Comment empêcher le crawl sur ces URLs afin d'optimiser la qualité de celui-ci ? Sachant que ces URLs ne sont pas indexées, et forcément, créées uniquement pour la gestion des campagnes.
Si quelqu'un à une ou plusieurs solutions ou même pistes de réflexion, je suis preneur!
Merci d'avance pour vos éventuels retours.
Je viens de récupérer les analyses de logs Googlebot pour un site, afin d'identifier comment ces petits robots crawlent ce site.
Les données récoltées s'étendent sur une période d'un jour uniquement. Mais cela est suffisant pour identifier déjà un problème : au moins la moitié des URLs crawlées sont des pages contenant des paramètres de tracking utilisés pour les campagnes de liens sponsorisés (Adwords et autre). Autant dire que le crawle n'est pas du tout optimisé.
A partir de là, je me pose plusieurs questions :
1. Je croyais que les robots savaient faire la différence entre les paramètres liés à la structure du site (filtrage, tri,...) et ceux liés à des campagnes. Comment arrivent-ils à crawler ces URLs ? Ne sont-ils pas censés tous simplement les ignorer ? J'imagine que les robots de Google reconnaissent très bien ces paramètres de tracking (gclid,...) pourtant.
2. Comment empêcher le crawl sur ces URLs afin d'optimiser la qualité de celui-ci ? Sachant que ces URLs ne sont pas indexées, et forcément, créées uniquement pour la gestion des campagnes.
Si quelqu'un à une ou plusieurs solutions ou même pistes de réflexion, je suis preneur!
Merci d'avance pour vos éventuels retours.