Crawl important de pages inconnues

WRInaute impliqué
Bonjour,

Depuis quelques jours je remarque dans mes logs un nombre très important de page inconnues qui sont crawlées par googlebot, il s'agit de millier de page crawlées chaque jour qui ont toutes le même format mais toutes différentes.

Code:
66.249.64.30 - - [03/Sep/2018:23:58:24 +0200] "GET /7566713995733689285.htm HTTP/1.1" 404 4260 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.64.27 - - [03/Sep/2018:23:58:24 +0200] "GET /41171165582827184.htm HTTP/1.1" 301 584 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.64.30 - - [03/Sep/2018:23:58:24 +0200] "GET /8277056884187225531.htm HTTP/1.1" 404 8236 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.64.27 - - [03/Sep/2018:23:58:24 +0200] "GET /41171165582827184.htm HTTP/1.1" 301 584 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.64.30 - - [03/Sep/2018:23:58:25 +0200] "GET /4049972624533210516.htm HTTP/1.1" 404 8232 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Je n'ai pas ces pages dans webmaster tools ou pas encore du moins. J'utilise Prestashop.
Quelqu'un a une idée de ce que cela peut-être ?

Merci
Erwann
 
Nouveau WRInaute
Bonjour,

je viens de découvrir un soucis similaire. Apparemment il s'agirait d'URL de flux vers les places de marché.
L'idéal serait de reprendre ces URLs et de leur envoyer un code 410 pour indiquer qu'elles n'existent plus.
 
WRInaute impliqué
Bonjour,

Je me permets de relancer ce sujet, je n'ai toujours pas d'explication sur ce problème, je n'ai pas trouvé de lien avec les comparateurs sur lesquels notre site est inscrit, Leguide entre autre.

Toujours aucune trace de ces pages dans la search console. Le volume de crawl est assez important et forcément j'imagine que cela ne doit pas plaire à google.

Erwann
 

Fichiers joints

  • Capture d’écran 2019-04-06 à 21.41.21.jpg
    Capture d’écran 2019-04-06 à 21.41.21.jpg
    171 KB · Affichages: 5
Nouveau WRInaute
Bonjour @moutyk , avez-vous trouvé l'origine du problème ? J'ai vu un cas identique récement (mêmes URL avec une série de chiffres .htm). J'ai une hypothèse en lien avec du code JS qui serait "mal interprété" par le crawler mobile de Google mais rien de sûr à ce jour.

@Floyd : aviez-vous la même structure d'URL (série de chiffres .htm) ? On retrouve des problèmes de crawl similaires sur certains forums, mais pas avec la même structure d'URL, et donc n'ayant pas la même cause donc peut-être que la piste des flux n'est pas bonne dans le cas particulier de ce thread (d'où ma question).

Merci !
 
Discussions similaires
Haut