WRInaute accro
Bonjour,
Je me suis développé un module très intéressant et efficace qui parse les logs et extrait le passage de GoogleBot.
Je me rends compte qu'il est constant dans ses crawls journaliers.
Actuellement, il crawle + ou - 35 pages/jour.
Comme maintenant, nous parlons de budget crawl et de crawl prédictif, j'essaye de le guider à crawler les pages qui m'intéresse. Et cette constante + ou - 35 montre bien que je suis dans un budget journalier.
Je perds env. 50% d'efficacité de ses crawls journalier car il va crawler des js ou pages connues en noindex. Donc je fous de ces pages. Elles n'ont pas lieu d'y apporter de l'intérêt.
D'un autre côté, je ne veux pas les mettre dans le robots.txt car sinon elles risqueraient d'être indexées car le bot ne pourrait plus se rendre compte qu'elles sont en noindex !
C'est cornélien !
J'ai pu aussi me rendre compte que son bot est extrêmement réactif quant à crawler une nouvelle page.
Dans les 1mn qui suivent la mise en ligne d'une nouvelle page, j'ai pu me rendre compte que googlebot avait crawlé la page. Malheureusement cela signifie pas pour autant son indexation immédiate.
C'est ce que j'essaie aussi d'améliorer, le ratio entre crawl et indexation.
Y-êtes-vous déjà penché ?
Merci
Je me suis développé un module très intéressant et efficace qui parse les logs et extrait le passage de GoogleBot.
Je me rends compte qu'il est constant dans ses crawls journaliers.
Actuellement, il crawle + ou - 35 pages/jour.
Comme maintenant, nous parlons de budget crawl et de crawl prédictif, j'essaye de le guider à crawler les pages qui m'intéresse. Et cette constante + ou - 35 montre bien que je suis dans un budget journalier.
Je perds env. 50% d'efficacité de ses crawls journalier car il va crawler des js ou pages connues en noindex. Donc je fous de ces pages. Elles n'ont pas lieu d'y apporter de l'intérêt.
D'un autre côté, je ne veux pas les mettre dans le robots.txt car sinon elles risqueraient d'être indexées car le bot ne pourrait plus se rendre compte qu'elles sont en noindex !
C'est cornélien !
J'ai pu aussi me rendre compte que son bot est extrêmement réactif quant à crawler une nouvelle page.
Dans les 1mn qui suivent la mise en ligne d'une nouvelle page, j'ai pu me rendre compte que googlebot avait crawlé la page. Malheureusement cela signifie pas pour autant son indexation immédiate.
C'est ce que j'essaie aussi d'améliorer, le ratio entre crawl et indexation.
Y-êtes-vous déjà penché ?
Merci