1. ⭐⭐⭐ Grosse PROMO en cours sur ma plateforme SEO My Ranking Metrics
    Rejeter la notice

Crawl anormal, augmentation de 50%, pages fantômes

Discussion dans 'Crawl et indexation Google, sitemaps' créé par indigene, 19 Juin 2015.

  1. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    3 656
    J'aime reçus:
    72
    Bonjour,

    Je ne sais pas si d'autres ont constaté comme moi une augmentation anormale du nombre de crawl et en particulier le 17 sur un de mes sites.

    Le site statique n'avait pas bougé depuis 1an et j'avais malgré tout un taux de crawl de 20 pour 94 pages, en moyenne sur 90 jours. Je trouve que c'était déjà bien pour un site qui n'évolue pas d'une virgule.

    J'ai commencé à remplacer le thème, page par page, à partir du 31 mai. Aussitôt le nombre de crawl s'est mis à augmenter. Jusque là rien d'anormal. Je trouve que Google a été très réactif sur ce coup.

    Mais voilà, mon taux a quand même augmenté de 50% en seulement 20 jours pour passer à une moyenne de pages visitées de 20 à 30 sur les 90 derniers jours. Il y a notamment le 17 où j'ai carrément eut 488 visites du bot pour 94 pages (dont seulement une cinquantaine ont été mises à jour sur le serveur). Ca m'interpelle.

    En vérifiant mes autres sites je remarque pour chacun un pic dans le nombre le crawl. Il y en a un c'était le 18 mai avec un nombre de crawls deux fois plus élevé que le max jusque là. Pour un autre c'était le 10 juin mais c'est moins flagrant. Ces autres sites n'ont pas bougé depuis également un an.

    Ma seconde réaction a été de me demander si les scripts que j'avais ajouté (du Jquery notamment) n'avaient pas ajouté à mon insu des urls fantômes. La commande site:www.example.com me donne aussitôt la réponse en m'annonçant 95 urls dans l'index au lieu de 94.
    J'ai vite fait de trouver l’intruse, il s'agit de l'url www.example.com/?18264
    Elle correspond à une copie en DC de ma page d'accueil.
    Mais ça vient d'où ce truc ?
    Du coup je balise et je me demande si mon augmentation anormale de crawl ne viendrait pas d'une multitude d'url imaginaires. Mais c'est troublant que cette url n'apparaisse qu'après 20 jours seulement. Il y a encore quelques jours elle n'existait pas dans la commande site:
    Et pourquoi l'augmentation subite du nombre de visites le 17 juin et pas plus tôt ? Depuis le 31 mai j'avais bien une augmentation du nombre de crawls mais je trouvais cette augmentation assez naturelle du fait que je remplaçais mes pages une à une.
    La date du cache de la page fantôme est du 13 juin. Alors pourquoi pas avant alors que c'est la page d'accueil ?

    Est-ce qu'en ajoutant une balise canonical sur chaque page vers elle-même va résoudre le problème ?
    Difficile en effet de faire des redirections 301 sachant que je ne connais pas les urls fantômes et que je ne sais même pas s'il y en aura d'autres.
     
  2. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    3 656
    J'aime reçus:
    72
    Le problème semble être résolu en ajoutant ces deux lignes dans le htaccess

    Code:
    RewriteCond %{QUERY_STRING} ^([0-9]+)$
    RewriteRule (.*) 				/$1? [R=301]
    
    Les pros du htaccess, vous me confirmez que c'est la bonne technique ?
     
  3. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 196
    J'aime reçus:
    1
    Le changement de page crawlé c'est sûrement ta refonte de design (donc de code) c'est mieux de faire ça en une seule fois pas par petit bout, quoi qu'il en soit tu a aussi des crawls plus important parfois a certaines périodes mais bon c'est pas "dangereux".
    Pour tes urls avec paramètre je ne pense pas que ce soit fondamentalement dangereux si tu redirige proprement là ou il faut en 301.
    Le htaccess je ne peux rien te dire perso je teste en live pour voir car c'est pas un truc que je manipule pas tous les jours a ceci prêt que le membre de droite de la Rewriterule n'a aucun usage du $1 car tu ne récupère rien tu redirige tout sur l'accueil du moment qu'il y a une query string.
     
  4. indigene
    indigene WRInaute accro
    Inscrit:
    7 Septembre 2003
    Messages:
    3 656
    J'aime reçus:
    72
    Non, je souhaite rediriger chaque page avec query string vers la page identique sans query string et pas tout vers la home.
    Par exemple contact.html?12345 sera redirigé vers contact.html
    Je me limite aux chiffres car si un jour j'ai une vraie query string à moi elle sera sans doute du type ?id= et ne contiendra pas uniquement des chiffres comme pour le cas que j'ai constaté.
    Mon htaccess à l'air de fonctionner mais je me demande s'il n'y a pas un énorme volume de telles pages qui ont été générées. Je n'ai toujours pas trouvé l'origine du truc.
     
  5. zeb
    zeb WRInaute accro
    Inscrit:
    5 Décembre 2004
    Messages:
    12 196
    J'aime reçus:
    1
    regarde si tu n'as pas des liens a la con qqu part (externe ou interne). Après ça peut arriver avec un plantage serveur aussi (cas vécu) et tu te rerouve avec des tonnes d'urls merdiques.

    WRI a remonté une info concernant le crawl de pages lié a des scripts JS qui induisent des urls relatives fausses aussi je sais plus ou. C'est peut être la cause surtout que tu parle de JQuery il me semble.
     
Chargement...
Similar Threads - Crawl anormal augmentation Forum Date
Ne pas rendre crawlable le menu ? Référencement Google Dimanche à 09:19
Probleme avec le crawl Mobile sur Search Console Crawl et indexation Google, sitemaps Samedi à 10:00
Crawler un site volumineux Crawl et indexation Google, sitemaps 4 Septembre 2019
googlebot crawle des pages inexistantes Crawl et indexation Google, sitemaps 16 Août 2019
Incohérences stats de crawl et logs apache Crawl et indexation Google, sitemaps 25 Juillet 2019
Décalage entre le crawl et la search console Crawl et indexation Google, sitemaps 18 Juillet 2019
Taux de crawling en chute Crawl et indexation Google, sitemaps 25 Mai 2019
Search Console Taux de crawling - Statistiques sur l'exploration Crawl et indexation Google, sitemaps 22 Mai 2019
Budget de crawl et images "Indexée, mais non envoyée via un sitemap" Problèmes de référencement spécifiques à vos sites 13 Mai 2019
Empêcher Googlebot de crawler/indexer tout un dossier Débuter en référencement 19 Avril 2019
  1. Ce site utilise des cookies. En continuant à utiliser ce site, vous acceptez l'utilisation des cookies.
    Rejeter la notice