404/410 vides pour les bots ?

WRInaute impliqué
Bonjour,

J'ai un site avec beaucoup de contenu temporaire. Les bots (notamment Bing) continuent de les visiter bien longtemps après que les pages soient passées en 410, même si elles n'ont eu aucun backlink.

Ces pages n'ayant aucun intérêt à être crawlées mais représentant une part importante du crawl, j'envisage d'envoyer un header 410 et de ne plus envoyer aucun contenu aux moteurs. Pour les utilisateurs, il y a des suggestions de pages similaires à visiter, et je compte bien sûr continuer de leur envoyer ces pages d'erreurs "utiles", mais pour les moteurs, ça me semble être un gâchis de ressources puisque ces liens apparaissent ailleurs (sitemaps, listes de navigation "normale"...).

Est-ce que ça peut poser un problème quelconque ?
 
WRInaute impliqué
tu penses que ce cloaking suffira à arrêter le crawl de ces URL ?
Peut-être. Par exemple pour un agenda d'évènements culturels, quand l'évènement est passé, j'envoie un header 410 mais je laisse la page telle quelle avec un message (au cas où on voudrait savoir qui était sur scène, par exemple : même si c'est passé, on peut vouloir retrouver des infos).
Peut-être que les moteurs font plus confiance au contenu qu'au header.
Là par exemple, je vais voir dans mes logs : Bing vient de crawler une page d'un évènement du 20 octobre 2006 qui pourtant n'a apparemment aucun backlink. 15 ans plus tard.

Dans les cas où j'affiche une 404 avec des suggestions de contenu similaire (et plus le contenu de départ), je ne pense pas que ça encourage les moteurs à revenir, mais à quoi bon gaspiller des ressources à construire des pages, chercher des produits en rapport, et envoyer du contenu, alors que je pourrais stopper l'exécution de la page très tôt et envoyer un minimum de données ?

Et au final, je ne sais pas si le "budget crawl" d'un site n'a pas une notion de poids. Probablement pas, mais au cas où, envoyer du contenu pomperait sur ce budget pour rien.
 
Olivier Duffez (admin)
Membre du personnel
je me demande bien pourquoi il s'intéresserait au contenu, ça n'a pas de sens (sauf si on ne fait pas confiance au code HTTP)
Bing est étrange tout de même...
 
WRInaute impliqué
je me demande bien pourquoi il s'intéresserait au contenu, ça n'a pas de sens (sauf si on ne fait pas confiance au code HTTP)
Bing est étrange tout de même...
Une soft 404 est aussi un cas où le contenu l'emporte sur le header.
Là mon truc c'est un peu le cas inverse : malgré le header, il y a bien du contenu qui change à chaque page. Ça pourrait être pris pour une mauvaise configuration ou pour un bug.
 
WRInaute impliqué
D'accord avec toi pour le statut 200 qui indique que le crawl est autorisé, et que c'est au moteur de choisir ce qu'il en fait (donc de déclarer une page comme soft 404).

Mais si j'envoie une 404 avec du contenu, le moteur a aussi le droit de regarder l'ensemble de ce qu'il reçoit et prendre des décisions en fonction.
Bing peut décider que si ça ne ressemble pas vraiment à une 404, il ne fera pas apparaitre la page, mais il reviendra voir plus tard. Peut-être beaucoup plus tard, mais quand un site a plus de 10 ans, la quantité de ce genre d'URL finit par faire beaucoup de visites "au cas où". Ça n'est qu'une hypothèse sur le fonctionnement de Bing, mais ça pourrait être quelque chose comme ça.
 
Discussions similaires
Haut