Astuce URL + paramètres VS balise noindex

Jalil_fyne. · 13 Mai 2020

Bonjour,

Avant tout, merci de prendre le temps de lire ces quelques lignes.

La notion de crawl budget nous invite à limiter le nombre de pages de notre site.

Mon problème est que beaucoup d'app que nous utilisons renvoient des url avec des paramètres.
La balise canonique évite les problématiques de duplicate content mais pas l'impact sur le crawl budget.

1) Y a-t-il de moyen pour cleaner une url avec des paramètres tout en conservant les information que ces paramètres donnent ?

2) Si aucune solution n'existe pour la solution 1. Est-il intéressant de dire à Google de ne pas crawler ces pages.

3) Homis le fichier robot.txt (auquel je n'ai pas accès - merci Shopify) existe-t-il un autre moyen d'empêcher le crawl.

Merci par avance pour votre aide,

rick38 · 13 Mai 2020

Si on considère que TOUTES les urls avec paramètres ne doivent pas être indexées (moi c'est une règle que je me fixe, depuis avant l'invention de la balise canonique...), tu peux ajouter ça dans le fichier robots.txt pour qu'elles ne soient pas crawlées :

Disallow: /*?*

Avec ça attention donc de vérifier que toutes les urls utiles ont leur équivalent réécrit sans aucun paramètre.

[EDIT] Ah mince je viens de lire que tu n'as pas accès au robots.txt

Bon ben tu ne peux rien faire, peut-être leur ajouter la balise meta noindex qui malgré tout peut limiter le crawl (mais pas l'empêcher).

emualliug · 13 Mai 2020

1) Dans l'absolu, URL Rewriting, mais le remède sera pire que le mal, pas du tout adapté à la problématique puisque les infos ne seront plus dans les paramètres mais au cœur de l'URL.

2 et 3) Plus adapté : le paramétrage via la SearchConsole (voir ici https://support.google.com/webmasters/answer/6080548?hl=fr)

Mais je t'invite à bien lire la doc avant toute chose, et notamment les deux "conditions" que pose Google :

site de plus de 1000 pages
Google explore "naturellement" les pages avec paramètre d'URL

Ce genre de bidouillage a tendance à flinguer un bon crawl, parce qu'il est très facile de commettre une erreur.

Ne pas oublier que le mieux est l'ennemi du bien. Je ne dirais pas que le budget de crawl n'existe pas, mais que ce n'est souvent pas une priorité. Si Google explore régulièrement ton site, suffisamment souvent pour détecter les nouvelles pages ou les changements : le budget de crawl n'est de toute façon pas un problème. (pour autant, s'il inverse mal, ça ne vient pas forcément d'un épuisement du budget).

De plus, si tu utilises des paramètres assez classiques (utm_* par exemple) Google devrait deviner tout seul qu'il s'agit de paramètres ne modifiant pas le contenu.

Bref, laisser faire est souvent la meilleure option.

Jalil_fyne. · 14 Mai 2020

Génial !
Merci pour ces éclairages.
Je vais suivre vos reco et laisser le crawl des autres pages.

Bonne journée à vous !!

indigene · 14 Mai 2020

Jalil_fyne. a dit:
Bonjour,

Avant tout, merci de prendre le temps de lire ces quelques lignes.

La notion de crawl budget nous invite à limiter le nombre de pages de notre site.

Non
Le budget crawl dépend de la popularité du site
Ce n'est pas en supprimant des pages de ton site qu'il deviendra plus populaire et que le budget crawl va augmenter. Il va même diminuer car tu auras moins de visite des robots si tu as moins de pages.

Jalil_fyne. · 14 Mai 2020

@indigene Merci pour ce point.

Dans ce que tu dis il y a un point que tu ne mentionnes pas : la valeur pour le user des pages crawlées.

Personnellement je donnerai cette explication mais j'avoue avoir du mal avec la notion de budget crawl.

Ce qui suit est complètement hypothétique :

Etant donné que crawlé une page coûte de l'argent à Google, ils ont trouvé un système leur permettant de limiter cette charge. En gros tu as un nombre limité de passages de robots.

L'intérêt pour Google est double il économise de l'argent et il encourage les éditeurs à ne pas faire n'importe quoi avec leurs url en leur disant si tu franchi la limite certaines de tes pages ne seront pas indexées.

La question en suspend est : comment le budget de chaque site est-il fixé. Et c'est là que le disallow sur le url+param est intéressant. Les bot vont crawlé des pages avec un contenu identique donc pas de valeur pour les users et plus de dépenses pour Google.

Ce que je vois bien pour éviter ça est : budget crawl = nombre de visites sur le site + ratio de pages jugées sans valeur / nombre total de pages à crawler

indigene · 14 Mai 2020

Le budget crawl a toujours existé depuis le départ. Depuis l'invention de google.
Dans un sitemap xml on précise <changefreq>monthly</changefreq> et <priority>0.4</priority>
Et même dans le HTML 4 on pouvait préciser "revisite after..."

C'est ça qui permet de calculer un budger crawl.
Et le budget crawl dépend de la page et également du site.
Un site populaire comme "20minutes" ou "lemonde" sera plus souvent crawlé (plusieurs fois par heure) qu'un site lambda. Et les pages d'accueil sont aussi plus souvent crawlées que les pages profondes.

C'est réajusté par google en automatique en fonction des changements qu'il constate sur les pages. Une page qui change jamais sera crawlée beaucoup moins souvent qu'une page qui change plusieurs fois dans la journée.

Supposons que tu supprimes la moitié des pages de ton site. Ça n'aura absolument aucune influence sur la fréquence de crawl des pages restantes. Cette fréquence sera toujours déterminée par la popularité des dites pages, la popularité du site et la fréquence de mise à jour des pages en question.

Donc le budget crawl c'est un mythe. C'est quelque chose qui a toujours existé. Pour augmenter ton budget crawl il suffit de gagner en popularité, en trafic.

Jalil_fyne. · 14 Mai 2020

Super clair ! Merci beaucoup.
D'où l'idée de mettre à jour ses pages régulièrement.

indigene · 14 Mai 2020

oui, ça a une grande influence
Mais changer de thème aura une influence inverse car ça pousse parfois les moteurs à revisiter tout le site pour recalculer un nouveau budget crawl donc il y a toujours un peu de flottement quand on fait un trop gros changement.
Il faut aussi de la régularité dans les publications. Toujours publier à la vitesse du crawl. Sauf si la vitesse est très faible (page revisiter tous les 5 jours ou plus). Dans ce cas ça n'a aucune importance de publier 100 pages d'un coup.

emualliug · 14 Mai 2020

Jalil_fyne. a dit:
comment le budget de chaque site est-il fixé.

Rien n'est certain, à hasarder une réponse, on ne peut que se tromper. Je suppose qu'il est tenu compte des éléments suivants :

popularité du site (un site populaire sera crawlé plus souvent et plus en profondeur)
rapidité du site (le crawl sera ralenti sur un serveur qui a du mal à tenir la charge)
fréquence de mise à jour (une page régulièrement actualisée sera plus activement crawlée)

Je ne suis pas certain qu'un nombre élevé de pages sans intérêt réduise le budget de crawl, mais c'est par contre une façon de le "gaspiller".

Je ne crois pas non plus qu'il faille être trop compatissant avec les ressources de Google. Oui, consulter une page consomme de la bande passante et de la puissance de calcul, en même temps, pour un serveur, servir une page fait de même. Je ne pense pas que Google "récompense" les bons élèves avec un crawl plus fréquent ni une meilleure indexation. En revanche, il ne "croira" pas un site qui l'induit en erreur (par exemple sur une date de modification bidon mise dans le sitemap).

Pour revenir un instant sur le sitemap, Google ne tient pas compte de <priority> ni de <changefreq> (doc Google : https://support.google.com/webmasters/answer/183668?hl=fr).

Théoriquement, Google devrait adapter son crawl au site qu'il indexe, mais comme le dit à raison @indigene, en pratique, c'est parfois au site de s'adapter au crawl, particulièrement au lancement. Lorsque l'on édite plus régulièrement du contenu que la vitesse de crawl, il ne faut pas hésiter à soumettre la page vers le SearchConsole. C'est un peu fastidieux, mais ce n'est en principe à faire qu'au démarrage et lors de la montée en puissance du site.

Pour finir, les questions de crawl ne sont pas une fin en soi. La question à se poser est : est-ce que le passage de GoogleBot permet de détecter les changements ? Si une page est crawlée une fois par mois, mais qu'elle n'est mise à jour qu'une fois par an, ce n'est pas un soucis, et un passage plus régulier n'apporterait rien en terme de qualité de l'indexation. Si la page est mise à jour tous les trois jours, c'est en revanche un problème.