Le budget crawl

indigene · 5 Mars 2020

Olivier, je viens de relire ton article très complet sur le budget crawl mais certains points me semblent flous.

Par exemple tu dis que google s'adapte à la vitesse du serveur et limitera son nombre d'url crawlées quand il juge que ça met le serveur à genoux. Sur un gros site avec énormément d'url c'est sans doute vrai mais sur un petit site, à mon avis, ce n'est pas comme cela que ça se passe. Je dirais que google s'adapte à la charge du serveur et va effectuer ses crawls à des heures de faible affluence, la nuit par exemple.

Ensuite, même si c'est sous-entendu mais pas dit clairement, je pense que le budget crawl peut être résumé en quelques points :

- c'est fonction de la page et de sa popularité (backlinks + trafic + fraicheur)
- certaines pages sont crawlées plus souvent que d'autres
- la suppression d'url inutiles ne va pas forcément changer le budget crawl pour les petits sites (c'est lié au fait que c'est déterminé à la page)

Je m'explique. Si sur un site on a 5000 urls mais seulement 300 urls sont vraiment importantes et le reste c'est la masse noire. Si on a par exemple 500 visites du robot par jour. En supprimant la moitié des urls on ne va pas passer à 500 visites par jour donc chaque page crawlée deux fois plus souvent. On risque de tomber rapidement à 250 ou 300 visites du robot par jour parce que chaque page continuera à être crawlée suivant la même fréquence. Sur mon site j'ai des pages qui sont crawlées tous les 10 jours, d'autres plus souvent, etc...

Donc en définitive le budget crawl n'est pas un budget alloué au sens où nous l'entendons pour un budget financier. C'est en réalité une fréquence de passage du robot déterminé pour chaque page. Et pour les nouvelles pages détectées c'est déterminé en fonction du site. Elles seront explorées plus ou moins rapidement selon que votre site est populaire ou non.

A l'origine, ce budget crawl était calculé en fonction des indications que l'on donnait dans le sitemap xml mais qui n'ont pas été respectées très longtemps par Google qui s'est rapidement mis à calculer ses propres fréquences :
<changefreq>monthly</changefreq>
<priority>0.5</priority>

Je pense que beaucoup d'éditeurs de sites pensent toujours que le budget crawl (terme apparu il y a seulement quelques années) est quelque chose de nouveau et que ça correspond à un véritable budget au sens d'un budget financier. Il était donc important de préciser les choses en expliquant clairement que ce n'est qu'une fréquence de passage calculée par google et que supprimer des pages zombies (ou la masse noire) n'aura pas forcément d'incidence sur la fréquence de passage des autres pages. Ceci n'est vrai que pour les énormes sites où il y a un aspect "limitation du crawl pour ne pas mettre à genou le serveur" qui entre en jeu.

Pour augmenter son budget crawl la solution est d'augmenter sa popularité et l'autorité du domaine (et des pages). Enfin c'est comme ça que je vois les choses.