Crawl important de pages inconnues

Discussion dans 'Crawl et indexation Google, sitemaps' créé par moutyk, 6 Septembre 2018.

  1. moutyk
    moutyk WRInaute impliqué
    Inscrit:
    1 Mars 2003
    Messages:
    513
    J'aime reçus:
    0
    Bonjour,

    Depuis quelques jours je remarque dans mes logs un nombre très important de page inconnues qui sont crawlées par googlebot, il s'agit de millier de page crawlées chaque jour qui ont toutes le même format mais toutes différentes.

    Code:
    66.249.64.30 - - [03/Sep/2018:23:58:24 +0200] "GET /7566713995733689285.htm HTTP/1.1" 404 4260 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    66.249.64.27 - - [03/Sep/2018:23:58:24 +0200] "GET /41171165582827184.htm HTTP/1.1" 301 584 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    66.249.64.30 - - [03/Sep/2018:23:58:24 +0200] "GET /8277056884187225531.htm HTTP/1.1" 404 8236 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    66.249.64.27 - - [03/Sep/2018:23:58:24 +0200] "GET /41171165582827184.htm HTTP/1.1" 301 584 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
    66.249.64.30 - - [03/Sep/2018:23:58:25 +0200] "GET /4049972624533210516.htm HTTP/1.1" 404 8232 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

    Je n'ai pas ces pages dans webmaster tools ou pas encore du moins. J'utilise Prestashop.
    Quelqu'un a une idée de ce que cela peut-être ?

    Merci
    Erwann
     
  2. moutyk
    moutyk WRInaute impliqué
    Inscrit:
    1 Mars 2003
    Messages:
    513
    J'aime reçus:
    0
    re,
    Je découvre que ce problème était déjà présent début aout ... Je suis vraiment perplexe !!
     
  3. Floyd
    Floyd Nouveau WRInaute
    Inscrit:
    20 Mars 2017
    Messages:
    5
    J'aime reçus:
    0
    Bonjour,

    je viens de découvrir un soucis similaire. Apparemment il s'agirait d'URL de flux vers les places de marché.
    L'idéal serait de reprendre ces URLs et de leur envoyer un code 410 pour indiquer qu'elles n'existent plus.
     
  4. moutyk
    moutyk WRInaute impliqué
    Inscrit:
    1 Mars 2003
    Messages:
    513
    J'aime reçus:
    0
    Bonjour,

    Je me permets de relancer ce sujet, je n'ai toujours pas d'explication sur ce problème, je n'ai pas trouvé de lien avec les comparateurs sur lesquels notre site est inscrit, Leguide entre autre.

    Toujours aucune trace de ces pages dans la search console. Le volume de crawl est assez important et forcément j'imagine que cela ne doit pas plaire à google.

    Erwann
     

    Fichiers attachés:

  5. imgk
    imgk Nouveau WRInaute
    Inscrit:
    20 Mai 2019
    Messages:
    6
    J'aime reçus:
    1
    Bonjour @moutyk , avez-vous trouvé l'origine du problème ? J'ai vu un cas identique récement (mêmes URL avec une série de chiffres .htm). J'ai une hypothèse en lien avec du code JS qui serait "mal interprété" par le crawler mobile de Google mais rien de sûr à ce jour.

    @Floyd : aviez-vous la même structure d'URL (série de chiffres .htm) ? On retrouve des problèmes de crawl similaires sur certains forums, mais pas avec la même structure d'URL, et donc n'ayant pas la même cause donc peut-être que la piste des flux n'est pas bonne dans le cas particulier de ce thread (d'où ma question).

    Merci !
     
Chargement...
Similar Threads - Crawl important inconnues Forum Date
Crawl et nombre de 30X important Crawl et indexation Google, sitemaps 3 Décembre 2015
[Analytics] Important - Statistiques erronés pour certains! - crawler non filtré Google Analytics 28 Mai 2009
Ordre du "crawle" important pour le ref ? Débuter en référencement 28 Novembre 2006
Pages crawlées inconnues Crawl et indexation Google, sitemaps 12 Septembre 2022
Crawl - 301 crawlé, 404 factuel ? Crawl et indexation Google, sitemaps 7 Septembre 2022
Problème de crawl et d'indexation Crawl et indexation Google, sitemaps 1 Septembre 2022
Problème : Google Crawl et Index des pages en No Index et bloqué par le robot.txt Crawl et indexation Google, sitemaps 26 Avril 2022
Crawler une url présente dans un select Développement d'un site Web ou d'une appli mobile 28 Mars 2022
Questions URL canonique, crawl et indexation Débuter en référencement 25 Mars 2022
Liens internes invisibles pour les crawlers Demandes d'avis et de conseils sur vos sites 7 Décembre 2021
Budget Crawl Google pour un gros site Crawl et indexation Google, sitemaps 18 Novembre 2021
Problème récent de Crawl Google Crawl et indexation Google, sitemaps 7 Juillet 2021
faut-il activer les URL image ou éviter pour économiser le crawl Référencement Google 21 Juin 2021
Signaler aux crawler de ne pas suivre un lien qui nécessite une connexion Crawl et indexation Google, sitemaps 9 Juin 2021
Urls filtrées indexées et crawl robots.txt Crawl et indexation Google, sitemaps 19 Mai 2021
Crawl et indexation Landing Page (site en création) Débuter en référencement 25 Mars 2021
Critères de tri en GET et budget crawl Référencement Google 25 Février 2021
Stimuler GoogleBot pour crawler de nouvelles pages Crawl et indexation Google, sitemaps 24 Janvier 2021
Crawl prédictif Google : pourquoi c'est majeur en SEO Techniques avancées de référencement 17 Décembre 2020
Search Console Suivi du crawl Google (Statistiques sur l'exploration) Crawl et indexation Google, sitemaps 9 Décembre 2020