Crawl prédictif Google : pourquoi c'est majeur en SEO

Discussion dans 'Techniques avancées de référencement' créé par WebRankInfo, 17 Décembre 2020.

  1. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 051
    J'aime reçus:
    532
    Aviez-vous réalisé que Google a évolué de cette façon :
    • depuis Panda environ (2011), il évalue la qualité du site, avec un impact sur le ranking
    • ensuite, il évalue la qualité des pages pour décider si certaines ne méritent pas d'être indexées (même s'il a perdu son temps/ses ressources à les crawler). Si elles ne sont pas indexées, elles ne risquent pas de ranker...
    • désormais (2020 ?), Google prédit la qualité d'une page avant même de l'avoir crawlée ("crawl prédictif"), pour décider s'il va la crawler. Pas de crawl => pas d'indexation => pas de ranking (et pas de chocolat)
    C'est en tout cas ce que je crois comprendre, avec mon expérience. Pour + d'infos :
    [​IMG]
     
    Lionel Belarbi apprécie ceci.
  2. Lionel Belarbi
    Lionel Belarbi WRInaute impliqué
    Inscrit:
    26 Décembre 2017
    Messages:
    604
    J'aime reçus:
    108
    Google crawl beaucoup chez moi, et pourtant me déclasse :D
     
  3. Lionel Belarbi
    Lionel Belarbi WRInaute impliqué
    Inscrit:
    26 Décembre 2017
    Messages:
    604
    J'aime reçus:
    108
    pas de crawl ➡ pas d’indexation ➡ pas de ranking

    chez Le journal abrasif https://lejournalabrasif.fr/ Google Crawl beaucoup et déclasse à fond ! Sérieux, les nouvelles pages articles sont indexées en quelques minutes et les anciennes pages sont déclassées.

    Je ne comprends plus rien, alors j'ai participé aux concours WRI ici en Bonus :

    https://www.webrankinfo.com/dossiers/indexation/changement-crawl-google

    Edit : Réponse de @WebRankInfo dans son article :

    Merci c'est plus clair !
     
    #3 Lionel Belarbi, 17 Décembre 2020
    Dernière édition: 17 Décembre 2020
  4. michelvernet
    michelvernet Nouveau WRInaute
    Inscrit:
    16 Mai 2003
    Messages:
    24
    J'aime reçus:
    0
    bonjour, dans mon cas, 100% des url contenues dans les exclues " Détectée, actuellement non indexée " sont de vieilles url redirigées en 301 dans le htaccess depuis plus de 2 ans !!! Quelle est la gravité de ce "problème" ( si problème il y a ) ? Merci
     
  5. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 051
    J'aime reçus:
    532
    dans ce cas, ça ne semble pas problématique, mais je me demande juste pourquoi Google ne veut pas les crawler.
     
  6. Lionel Belarbi
    Lionel Belarbi WRInaute impliqué
    Inscrit:
    26 Décembre 2017
    Messages:
    604
    J'aime reçus:
    108
    C'est grâce à l'outil iciiVotre site est-il concerné ? :

    Que j'ai vu ça :

    Explorée, actuellement non indexée = toutes les pages feed sur mon wordpress sont des doublons des pages d'origines, ou causant des problèmes (404, ect..)...

    Résultat :

    Nombre d'URL valides 501
    Nombre d'URL explorées non-indexées 430 (les pages feed)
    Nombre d'URL détectées non-indexées 1

    Gravité du problème : élevée.

    Du coup, j'ai utilisé le plugin Disable Feeds pour faire le ménage.

    Encore une fois, merci @WebRankInfo ^^

    En revanche j'ai ce message sur la console google :

    La validation des problèmes est temporairement désactivée en raison de modifications prochaines du rapport
     
  7. emualliug
    emualliug WRInaute occasionnel
    Inscrit:
    1 Février 2020
    Messages:
    274
    J'aime reçus:
    53
    Il faudrait peut-être savoir comment ces URL sont détectées par Google. Des URL qui font l'objet d'une redirection depuis deux ans ne font probablement pas l'objet d'un linkage interne de qualité (en tout cas ne devraient pas l'être).

    Difficile de dire à l'heure actuelle comment Google sélectionne les pages à crawler, mais j'ai quelques "impressions" :
    • pour les actualisations :
      • fréquence des précédentes actualisations (une page fréquemment remaniée a plus de chances d'être visitée qu'une autre)
      • nombre de visites (une page très visitée sera plus régulièrement crawlée, même sans modifications)
      • balises (une page en no-index sera moins souvent explorée)
    • pour la découverte :
      • profondeur de la page ou qualité du linking (une page présente depuis un lien sur un menu sera plus rapidement crawlée qu'une page uniquement liée dans un article profond)
      • schéma de l'URL, j'ai par exemple l'impression que les pages détectée comme étant des pages de suite de pagination ne sont pas souvent crawlées (mais cela interfère avec d'autres critères, du coup je ne puis dire si c'est une cause ou une corrélation)
     
  8. WebRankInfo
    WebRankInfo Admin
    Membre du personnel
    Inscrit:
    19 Avril 2002
    Messages:
    20 051
    J'aime reçus:
    532
    assez d'accord. Je pense aussi à des critères de qualité, qu'ils soient techniques (page trop lourde ou trop remplie de JS) ou liés à l'éditorial et l'engagement créé avec l'utilisateur
     
Chargement...
Similar Threads - Crawl prédictif Google Forum Date
Stimuler GoogleBot pour crawler de nouvelles pages Crawl et indexation Google, sitemaps Hier à 15:25
Search Console Suivi du crawl Google (Statistiques sur l'exploration) Crawl et indexation Google, sitemaps 9 Décembre 2020
Comment éviter un piège à bots avec un crawler ? Crawl et indexation Google, sitemaps 3 Décembre 2020
Pas de nouveau "crawl" sur une page récente, pourquoi ? Crawl et indexation Google, sitemaps 17 Novembre 2020
Crawl Screaming Frog : comment interpréter ces données ? Crawl et indexation Google, sitemaps 8 Octobre 2020
Search Console Suppression de sous domaines + stop crawl ? Crawl et indexation Google, sitemaps 27 Juillet 2020
Qwant : une étude du crawl Autres moteurs de recherche connus 7 Juillet 2020
Urls orphelines crawlées par Google + Robots.txt ? Crawl et indexation Google, sitemaps 3 Avril 2020
Le budget crawl Référencement Google 5 Mars 2020
Anomalie 404 lors du crawl Crawl et indexation Google, sitemaps 28 Février 2020