Optimisation temps de crawl et jus

Nouveau WRInaute
Bonjour tout le monde,

J'ai l'impression que l'indexation des pages de mon sitemap et le temps passé par le ggbot sur mon site n'est pas très performant et donc je cherche à optimiser un peu tout ça.

Ma question : j'ai un site type tripadvisor avec beaucoup de pages (de recherches + de profils) et sur chaque profil il y a un lien unique par profil pour laisser un avis. Type monsite.fr/pro/toto/avis (site codé à la main, pas de CMS)
J'ai mis ces pages en noindex mais je pense que ggbot passe trop de temps à les crawler et que je perds du jus ...

Les solutions envisagés (vu sur d'autres posts et chez les concurrents)
1- nofollow des liens internes : j'ai cru comprendre que c'était à bannir mais c'est techniquement une solution (vu chez les concurrents)
2- ouvrir la page avec du js : GG est de moins en moins dupe et pourrait punir pour PR sculpting ?
3- robot.txt : bloquer les pages type /pro/*/avis ? (https://www.webrankinfo.com/forum/t/optimiser-le-crawl-google.171044/?hilit=sculpting#p1473507)
4- Une autre meilleure idée ?

Quelques KPI de GSC sur lesquelles j'ai du mal à évaluer la performance :
- j'ai itéré sur un sitemap mais en 1 mois : 98 500 pages à indexer -> 780 indexés
- nb moyen de pages explorées par jour : 459 (en faible augmentation depuis 15j)
- ko téléchargés en moyenne/jour : 6 295
- temps de téléchargement moyen : 503 ms

Merci beaucoup d'avance pour votre avis ! Toute réponse même partielle me sera vraiment utile :D
 
Nouveau WRInaute
Salut ljulien,

Merci pour ce retour et cette ressource super intéressante.
Effectivement ça confirme les axes d'améliorations sur lesquels je travaille. Notamment le linking interne et éviter le crawl de formulaires sans grand intérêt pour le googlebot mais indispensable pour les utilisateurs.

Je pense gérer ça sur un robots.txt si personne ne me suggère mieux, refaire des sitemaps en étant moins gourmand suite à ce que je viens de lire sur l'article et on verra bien :)

Merci !
 
Nouveau WRInaute
Bonjour,

Super article ! J'ai fini par bloquer les pages dans le robots.txt et d'après mes logs de crawl le ggbot ne perd plus de temps sur ces pages.

2 questions sous-jacentes :
- Que pense Google si les 2/3 de mes pages sont bloquées par le robots.txt (est-ce qu'il s'en rend compte et pourrait penser que le site est de mauvaise qualité ? Il me suffirait de faire 1 page avec un paramètre pour régler le pb)
- Est-ce qu'il y a un moyen pour favoriser le crawl de nouvelles pages plutôt que la màj d'anciennes ? D'après ton article et mes recherches on dirait que non et que Google préfère màj du bon contenu qu'en découvrir d'autres.
 
Olivier Duffez (admin)
Membre du personnel
pas de pb à mon avis avec le blocage des URL dans robots.txt, sauf si elles sont restées indexées
il est tout à fait possible de faire indexer des nouvelles URL, avec un bon contenu et un bon maillage
 
Discussions similaires
Haut