1. Bienvenue sur le nouveau forum WebRankInfo ! Si vous avez envie d'en parler, c'est ici :-)
    Rejeter la notice

Optimisation temps de crawl et jus

Discussion dans 'Crawl et indexation Google, sitemaps' créé par Ifachtouk, 18 Août 2016.

  1. Ifachtouk

    Ifachtouk Nouveau WRInaute

    Inscrit:
    10 Février 2016
    Messages:
    6
    J'aime reçus:
    0
    Bonjour tout le monde,

    J'ai l'impression que l'indexation des pages de mon sitemap et le temps passé par le ggbot sur mon site n'est pas très performant et donc je cherche à optimiser un peu tout ça.

    Ma question : j'ai un site type tripadvisor avec beaucoup de pages (de recherches + de profils) et sur chaque profil il y a un lien unique par profil pour laisser un avis. Type monsite.fr/pro/toto/avis (site codé à la main, pas de CMS)
    J'ai mis ces pages en noindex mais je pense que ggbot passe trop de temps à les crawler et que je perds du jus ...

    Les solutions envisagés (vu sur d'autres posts et chez les concurrents)
    1- nofollow des liens internes : j'ai cru comprendre que c'était à bannir mais c'est techniquement une solution (vu chez les concurrents)
    2- ouvrir la page avec du js : GG est de moins en moins dupe et pourrait punir pour PR sculpting ?
    3- robot.txt : bloquer les pages type /pro/*/avis ? (http://forum.webrankinfo.com/optimiser-crawl-google-t171044.html?hilit=sculpting#p1473507)
    4- Une autre meilleure idée ?

    Quelques KPI de GSC sur lesquelles j'ai du mal à évaluer la performance :
    - j'ai itéré sur un sitemap mais en 1 mois : 98 500 pages à indexer -> 780 indexés
    - nb moyen de pages explorées par jour : 459 (en faible augmentation depuis 15j)
    - ko téléchargés en moyenne/jour : 6 295
    - temps de téléchargement moyen : 503 ms

    Merci beaucoup d'avance pour votre avis ! Toute réponse même partielle me sera vraiment utile :D
     
  2. ljulien

    ljulien Nouveau WRInaute

    Inscrit:
    20 Avril 2016
    Messages:
    60
    J'aime reçus:
    0
  3. Ifachtouk

    Ifachtouk Nouveau WRInaute

    Inscrit:
    10 Février 2016
    Messages:
    6
    J'aime reçus:
    0
    Salut ljulien,

    Merci pour ce retour et cette ressource super intéressante.
    Effectivement ça confirme les axes d'améliorations sur lesquels je travaille. Notamment le linking interne et éviter le crawl de formulaires sans grand intérêt pour le googlebot mais indispensable pour les utilisateurs.

    Je pense gérer ça sur un robots.txt si personne ne me suggère mieux, refaire des sitemaps en étant moins gourmand suite à ce que je viens de lire sur l'article et on verra bien :)

    Merci !
     
  4. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 805
    J'aime reçus:
    2
  5. Ifachtouk

    Ifachtouk Nouveau WRInaute

    Inscrit:
    10 Février 2016
    Messages:
    6
    J'aime reçus:
    0
    Bonjour,

    Super article ! J'ai fini par bloquer les pages dans le robots.txt et d'après mes logs de crawl le ggbot ne perd plus de temps sur ces pages.

    2 questions sous-jacentes :
    - Que pense Google si les 2/3 de mes pages sont bloquées par le robots.txt (est-ce qu'il s'en rend compte et pourrait penser que le site est de mauvaise qualité ? Il me suffirait de faire 1 page avec un paramètre pour régler le pb)
    - Est-ce qu'il y a un moyen pour favoriser le crawl de nouvelles pages plutôt que la màj d'anciennes ? D'après ton article et mes recherches on dirait que non et que Google préfère màj du bon contenu qu'en découvrir d'autres.
     
  6. WebRankInfo

    WebRankInfo Admin
    Membre du personnel

    Inscrit:
    19 Avril 2002
    Messages:
    22 805
    J'aime reçus:
    2
    pas de pb à mon avis avec le blocage des URL dans robots.txt, sauf si elles sont restées indexées
    il est tout à fait possible de faire indexer des nouvelles URL, avec un bon contenu et un bon maillage