Afin de bien suivre la manière dont un site est indexé, j'ai ajouté quelques lignes de code pour détecter le passage des crawler et les enregistrer. Rien de bien sorcier, filtrage suivant le useragent, et si ça répond à un motif, sauvegarde dans une base de donnée.
Je me suis particulièrement intéressé à googlebot, bingbot, yandexbot, qwantify/bleriot, et plus récemment petalbot. Ce qui m'a surpris, c'est que, entre le 1er janvier et le 30 juin 2020, je n'ai pas détecté sur ce site un seul passage de Qwantify / Bleriot.
L'hypothèse est que Qwant n'a effectué aucune indexation sur au moins six mois.
Plusieurs contre-hypothèses :
1/ Il est possible que j'identifie mal les crawlers par une erreur quelconque dans le script.
C'est toutefois peu probable (en utilisant un useragent switcher, le script fonctionne bien), et l'examen aléatoire des logs ne me laisse pas voir un passage du robot d'indexation de Qwant que le script aurait omis. En outre, et par un autre mécanisme, j'enregistre les useragent accédant à robots.txt ; sur la même période "Mozilla/5.0 (compatible; Qwantify/Bleriot/1.1; +https://help.qwant.com/bot)" n'a consulté qu'une seule fois robots.txt.
2/ J'aurais, par inadvertance, bloqué Bleriot dans robots.txt.
C'est également peu probable, robots.txt est très simple, ni Qwantify ni Bleriot n'y sont mentionnés.
3/ Qwant ignore l'existence de ce site.
C'est une hypothèse que j'écarte également. Qwant m'apporte quelques visites (0,2 % sur la période considérée, ce qui est toutefois sensiblement inférieur à la moyenne française qui est aux alentours de 0,8 % d'après StatCounter). En outre, je l'indiquais sur un autre fil, Qwant vient régulièrement récupérer une favicon (au cours d'un procédé étonnant d'ailleurs) et finit par récupérer celle dont l'adresse figure dans le <head> (il a donc indexé certaines pages, avant la mise en place de la surveillance).
J'en reviens donc à l'hypothèse de base : Qwant n'a effectué aucune indexation du site pendant au moins six mois.
Il est à noter que Qwant a renvoyé des internautes vers le site en question, sur des pages qu'il n'avait pas indexé (ce qui me laisse supposer qu'il a utilisé le contenu de l'index de Bing).
La pertinence des résultats de Qwant fait parfois l'objet de vives critiques. Le crawl seul ne fait pas la qualité d'un moteur de recherche, mais à défaut de crawl efficace, je ne vois pas comment le résultats pourraient être justes. Pour avoir une idée, en comparaison, PetalBot, sur le seul mois de juin a crawlé 423 pages sur le même site. Sur l'ensemble de la période de six mois, Bingbot et GoogleBot ont chacun crawlé environ 3300 pages.
Il faut toutefois relativiser la portée de ce test. Il n'a été conduit que sur un seul site, d'une audience modérée (environ 8000 visites sur la période considérée).
Je me suis particulièrement intéressé à googlebot, bingbot, yandexbot, qwantify/bleriot, et plus récemment petalbot. Ce qui m'a surpris, c'est que, entre le 1er janvier et le 30 juin 2020, je n'ai pas détecté sur ce site un seul passage de Qwantify / Bleriot.
L'hypothèse est que Qwant n'a effectué aucune indexation sur au moins six mois.
Plusieurs contre-hypothèses :
1/ Il est possible que j'identifie mal les crawlers par une erreur quelconque dans le script.
C'est toutefois peu probable (en utilisant un useragent switcher, le script fonctionne bien), et l'examen aléatoire des logs ne me laisse pas voir un passage du robot d'indexation de Qwant que le script aurait omis. En outre, et par un autre mécanisme, j'enregistre les useragent accédant à robots.txt ; sur la même période "Mozilla/5.0 (compatible; Qwantify/Bleriot/1.1; +https://help.qwant.com/bot)" n'a consulté qu'une seule fois robots.txt.
2/ J'aurais, par inadvertance, bloqué Bleriot dans robots.txt.
C'est également peu probable, robots.txt est très simple, ni Qwantify ni Bleriot n'y sont mentionnés.
3/ Qwant ignore l'existence de ce site.
C'est une hypothèse que j'écarte également. Qwant m'apporte quelques visites (0,2 % sur la période considérée, ce qui est toutefois sensiblement inférieur à la moyenne française qui est aux alentours de 0,8 % d'après StatCounter). En outre, je l'indiquais sur un autre fil, Qwant vient régulièrement récupérer une favicon (au cours d'un procédé étonnant d'ailleurs) et finit par récupérer celle dont l'adresse figure dans le <head> (il a donc indexé certaines pages, avant la mise en place de la surveillance).
J'en reviens donc à l'hypothèse de base : Qwant n'a effectué aucune indexation du site pendant au moins six mois.
Il est à noter que Qwant a renvoyé des internautes vers le site en question, sur des pages qu'il n'avait pas indexé (ce qui me laisse supposer qu'il a utilisé le contenu de l'index de Bing).
La pertinence des résultats de Qwant fait parfois l'objet de vives critiques. Le crawl seul ne fait pas la qualité d'un moteur de recherche, mais à défaut de crawl efficace, je ne vois pas comment le résultats pourraient être justes. Pour avoir une idée, en comparaison, PetalBot, sur le seul mois de juin a crawlé 423 pages sur le même site. Sur l'ensemble de la période de six mois, Bingbot et GoogleBot ont chacun crawlé environ 3300 pages.
Il faut toutefois relativiser la portée de ce test. Il n'a été conduit que sur un seul site, d'une audience modérée (environ 8000 visites sur la période considérée).