404/410 vides pour les bots ?

Discussion dans 'Débuter en référencement' créé par colonies, 17 Mai 2021.

  1. colonies
    colonies WRInaute impliqué
    Inscrit:
    10 Septembre 2006
    Messages:
    592
    J'aime reçus:
    79
    Bonjour,

    J'ai un site avec beaucoup de contenu temporaire. Les bots (notamment Bing) continuent de les visiter bien longtemps après que les pages soient passées en 410, même si elles n'ont eu aucun backlink.

    Ces pages n'ayant aucun intérêt à être crawlées mais représentant une part importante du crawl, j'envisage d'envoyer un header 410 et de ne plus envoyer aucun contenu aux moteurs. Pour les utilisateurs, il y a des suggestions de pages similaires à visiter, et je compte bien sûr continuer de leur envoyer ces pages d'erreurs "utiles", mais pour les moteurs, ça me semble être un gâchis de ressources puisque ces liens apparaissent ailleurs (sitemaps, listes de navigation "normale"...).

    Est-ce que ça peut poser un problème quelconque ?
     
  2. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 395
    J'aime reçus:
    590
    tu penses que ce cloaking suffira à arrêter le crawl de ces URL ?
     
  3. colonies
    colonies WRInaute impliqué
    Inscrit:
    10 Septembre 2006
    Messages:
    592
    J'aime reçus:
    79
    Peut-être. Par exemple pour un agenda d'évènements culturels, quand l'évènement est passé, j'envoie un header 410 mais je laisse la page telle quelle avec un message (au cas où on voudrait savoir qui était sur scène, par exemple : même si c'est passé, on peut vouloir retrouver des infos).
    Peut-être que les moteurs font plus confiance au contenu qu'au header.
    Là par exemple, je vais voir dans mes logs : Bing vient de crawler une page d'un évènement du 20 octobre 2006 qui pourtant n'a apparemment aucun backlink. 15 ans plus tard.

    Dans les cas où j'affiche une 404 avec des suggestions de contenu similaire (et plus le contenu de départ), je ne pense pas que ça encourage les moteurs à revenir, mais à quoi bon gaspiller des ressources à construire des pages, chercher des produits en rapport, et envoyer du contenu, alors que je pourrais stopper l'exécution de la page très tôt et envoyer un minimum de données ?

    Et au final, je ne sais pas si le "budget crawl" d'un site n'a pas une notion de poids. Probablement pas, mais au cas où, envoyer du contenu pomperait sur ce budget pour rien.
     
  4. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 395
    J'aime reçus:
    590
    je me demande bien pourquoi il s'intéresserait au contenu, ça n'a pas de sens (sauf si on ne fait pas confiance au code HTTP)
    Bing est étrange tout de même...
     
  5. colonies
    colonies WRInaute impliqué
    Inscrit:
    10 Septembre 2006
    Messages:
    592
    J'aime reçus:
    79
    Une soft 404 est aussi un cas où le contenu l'emporte sur le header.
    Là mon truc c'est un peu le cas inverse : malgré le header, il y a bien du contenu qui change à chaque page. Ça pourrait être pris pour une mauvaise configuration ou pour un bug.
     
  6. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 395
    J'aime reçus:
    590
    c'est totalement normal, une soft 404 renvoie un code 200, donc le contenu doit être récupéré et étudié
     
  7. colonies
    colonies WRInaute impliqué
    Inscrit:
    10 Septembre 2006
    Messages:
    592
    J'aime reçus:
    79
    D'accord avec toi pour le statut 200 qui indique que le crawl est autorisé, et que c'est au moteur de choisir ce qu'il en fait (donc de déclarer une page comme soft 404).

    Mais si j'envoie une 404 avec du contenu, le moteur a aussi le droit de regarder l'ensemble de ce qu'il reçoit et prendre des décisions en fonction.
    Bing peut décider que si ça ne ressemble pas vraiment à une 404, il ne fera pas apparaitre la page, mais il reviendra voir plus tard. Peut-être beaucoup plus tard, mais quand un site a plus de 10 ans, la quantité de ce genre d'URL finit par faire beaucoup de visites "au cas où". Ça n'est qu'une hypothèse sur le fonctionnement de Bing, mais ça pourrait être quelque chose comme ça.
     
  8. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 395
    J'aime reçus:
    590
    oui je vois l'idée, ça se tente (même si c'est une forme de cloaking !)
     
Chargement...
Similar Threads - 404 410 vides Forum Date
Passer des 404 spammées en 410 avec htaccess URL Rewriting et .htaccess 18 Juin 2019
Google voit ma page en 404, bien qu'elle soit en 410 ? Débuter en référencement 14 Décembre 2018
410 / 404 je me mélange les pinceaux Netlinking, backlinks, liens et redirections 21 Septembre 2018
Redirection des liens php (404) vers .html ou 410 Netlinking, backlinks, liens et redirections 21 Novembre 2016
Page d'erreur 404 / 410 ErrorDocument help Développement d'un site Web ou d'une appli mobile 2 Avril 2014
404 ou 410 ? Débuter en référencement 9 Février 2012
comment afficher l erreur 404 URL Rewriting et .htaccess Mercredi à 00:12
Search Console Comment faire partir les erreurs Couverture => Introuvable (404) Problèmes de référencement spécifiques à vos sites 12 Mars 2021
page 404 lien indexer comment le rediriger? Débuter en référencement 12 Janvier 2021
Suppression répertoire complet. Redirection 301 ou Erreur404 ? URL Rewriting et .htaccess 7 Janvier 2021