Stimuler GoogleBot pour crawler de nouvelles pages

Discussion dans 'Crawl et indexation Google, sitemaps' créé par passion, 24 Janvier 2021.

  1. passion
    passion WRInaute accro
    Inscrit:
    6 Janvier 2006
    Messages:
    3 865
    J'aime reçus:
    166
    Bonjour,
    Je me suis développé un module très intéressant et efficace qui parse les logs et extrait le passage de GoogleBot.
    Je me rends compte qu'il est constant dans ses crawls journaliers.
    Actuellement, il crawle + ou - 35 pages/jour.
    Comme maintenant, nous parlons de budget crawl et de crawl prédictif, j'essaye de le guider à crawler les pages qui m'intéresse. Et cette constante + ou - 35 montre bien que je suis dans un budget journalier.

    Je perds env. 50% d'efficacité de ses crawls journalier car il va crawler des js ou pages connues en noindex. Donc je fous de ces pages. Elles n'ont pas lieu d'y apporter de l'intérêt.
    D'un autre côté, je ne veux pas les mettre dans le robots.txt car sinon elles risqueraient d'être indexées car le bot ne pourrait plus se rendre compte qu'elles sont en noindex !

    C'est cornélien !

    J'ai pu aussi me rendre compte que son bot est extrêmement réactif quant à crawler une nouvelle page.
    Dans les 1mn qui suivent la mise en ligne d'une nouvelle page, j'ai pu me rendre compte que googlebot avait crawlé la page. Malheureusement cela signifie pas pour autant son indexation immédiate.
    C'est ce que j'essaie aussi d'améliorer, le ratio entre crawl et indexation.

    Y-êtes-vous déjà penché ?
    Merci
     
  2. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 213
    J'aime reçus:
    563
    combien as-tu d'URL sur le site ? si c'est moins de 100.000 (allez, disons 10.000), la notion de crawl budget ne te concerne pas. Sauf si tu publies plein de nouvelles URL par jour.

    le crawl des JS ne pose pas de pb (ça ne réduit pas le reste du crawl)
    pour éviter de crawler les noindex, peux-tu éviter de faire des liens vers elles ?

    pour que Google indexe la majorité des URL qu'il crawle, c'est l'objet de mon tuto (payant) ;-)
     
  3. passion
    passion WRInaute accro
    Inscrit:
    6 Janvier 2006
    Messages:
    3 865
    J'aime reçus:
    166
    Merci pour ces infos ;)
    Oh non, je suis sous la barre des 10K. Si tu parles de toutes les urls confondues, je suis à env. 1500 mais volontairement indexables, env. 150.
    Ah ok, je ne savais pas pour le js.
    Eviter de faire des liens vers elles ? Euh bah, non... c'est des liens internes, j'en ai besoin pour afficher des fonctionnalités mais elles n'ont pas un contenu utile à indexer. C'est pour cette raison qu'elles sont en noindex. Maintenant je comprends bien que comme le robots.txt ne bloque pas l'accès, bah... il passe dedans :)
     
  4. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 213
    J'aime reçus:
    563
    si, le robots.txt est censé bloquer le crawl. Sauf parfois, et c'est souvent quand il y a de nombreux liens vers les URL.
    déjà, essaie de mettre ces liens en nofollow
     
  5. emualliug
    emualliug WRInaute occasionnel
    Inscrit:
    1 Février 2020
    Messages:
    311
    J'aime reçus:
    62
Chargement...
Similar Threads - Stimuler GoogleBot crawler Forum Date
Voir une page (entière) comme Googlebot Développement d'un site Web ou d'une appli mobile 27 Mars 2021
Fréquence passage googlebot Crawl et indexation Google, sitemaps 30 Janvier 2021
Comment augmenter la fréquence de passage de GoogleBot Crawl et indexation Google, sitemaps 10 Décembre 2019
Site inaccessible pour GoogleBot Crawl et indexation Google, sitemaps 21 Octobre 2019
En décembre 2019 changement de l'user agent de Googlebot Crawl et indexation Google, sitemaps 5 Octobre 2019
googlebot crawle des pages inexistantes Crawl et indexation Google, sitemaps 16 Août 2019
Les pages 404 avec googlebot Crawl et indexation Google, sitemaps 14 Juin 2019
Evergreen Googlebot, basé sur Chromium (Chrome open source) Référencement Google 9 Mai 2019
Empêcher Googlebot de crawler/indexer tout un dossier Débuter en référencement 19 Avril 2019
GoogleBot scan url inexistante Crawl et indexation Google, sitemaps 17 Avril 2019