Crawl prédictif Google : pourquoi c'est majeur en SEO

WebRankInfo · 17 Décembre 2020

Aviez-vous réalisé que Google a évolué de cette façon :

depuis Panda environ (2011), il évalue la qualité du site, avec un impact sur le ranking
ensuite, il évalue la qualité des pages pour décider si certaines ne méritent pas d'être indexées (même s'il a perdu son temps/ses ressources à les crawler). Si elles ne sont pas indexées, elles ne risquent pas de ranker...
désormais (2020 ?), Google prédit la qualité d'une page avant même de l'avoir crawlée ("crawl prédictif"), pour décider s'il va la crawler. Pas de crawl => pas d'indexation => pas de ranking (et pas de chocolat)

C'est en tout cas ce que je crois comprendre, avec mon expérience. Pour + d'infos :

Mes explications sur le "crawl prédictif de Google"
Ma méthode ultra simple pour savoir si votre site est concerné par ces pb de crawl/indexation
Mon tuto premium (payant) "solutions pour faire crawler/indexer Google"

u319347 · 17 Décembre 2020

Google crawl beaucoup chez moi, et pourtant me déclasse

u319347 · 17 Décembre 2020

pas de crawl ➡ pas d’indexation ➡ pas de ranking

chez Le journal abrasif https://lejournalabrasif.fr/ Google Crawl beaucoup et déclasse à fond ! Sérieux, les nouvelles pages articles sont indexées en quelques minutes et les anciennes pages sont déclassées.

Je ne comprends plus rien, alors j'ai participé aux concours WRI ici en Bonus :

https://www.webrankinfo.com/dossiers/indexation/changement-crawl-google

Edit : Réponse de @WebRankInfo dans son article :

J’ai expliqué qu’une page non crawlée ne peut pas être indexée.
ça ne signifie pas qu’une page crawlée est forcément indexée.
de la même manière qu’une page indexée n’est pas forcément bien positionnée.

Merci c'est plus clair !

michelvernet · 17 Décembre 2020

bonjour, dans mon cas, 100% des url contenues dans les exclues " Détectée, actuellement non indexée " sont de vieilles url redirigées en 301 dans le htaccess depuis plus de 2 ans !!! Quelle est la gravité de ce "problème" ( si problème il y a ) ? Merci

WebRankInfo · 17 Décembre 2020

dans ce cas, ça ne semble pas problématique, mais je me demande juste pourquoi Google ne veut pas les crawler.

u319347 · 18 Décembre 2020

C'est grâce à l'outil iciiVotre site est-il concerné ? :

Que j'ai vu ça :

Explorée, actuellement non indexée = toutes les pages feed sur mon wordpress sont des doublons des pages d'origines, ou causant des problèmes (404, ect..)...

Résultat :

Nombre d'URL valides 501
Nombre d'URL explorées non-indexées 430 (les pages feed)
Nombre d'URL détectées non-indexées 1

Gravité du problème : élevée.

Du coup, j'ai utilisé le plugin Disable Feeds pour faire le ménage.

Encore une fois, merci @WebRankInfo ^^

En revanche j'ai ce message sur la console google :

La validation des problèmes est temporairement désactivée en raison de modifications prochaines du rapport

emualliug · 30 Décembre 2020

WebRankInfo a dit:
dans ce cas, ça ne semble pas problématique, mais je me demande juste pourquoi Google ne veut pas les crawler.

Il faudrait peut-être savoir comment ces URL sont détectées par Google. Des URL qui font l'objet d'une redirection depuis deux ans ne font probablement pas l'objet d'un linkage interne de qualité (en tout cas ne devraient pas l'être).

Difficile de dire à l'heure actuelle comment Google sélectionne les pages à crawler, mais j'ai quelques "impressions" :

pour les actualisations :
- fréquence des précédentes actualisations (une page fréquemment remaniée a plus de chances d'être visitée qu'une autre)
- nombre de visites (une page très visitée sera plus régulièrement crawlée, même sans modifications)
- balises (une page en no-index sera moins souvent explorée)
pour la découverte :
- profondeur de la page ou qualité du linking (une page présente depuis un lien sur un menu sera plus rapidement crawlée qu'une page uniquement liée dans un article profond)
- schéma de l'URL, j'ai par exemple l'impression que les pages détectée comme étant des pages de suite de pagination ne sont pas souvent crawlées (mais cela interfère avec d'autres critères, du coup je ne puis dire si c'est une cause ou une corrélation)

WebRankInfo · 31 Décembre 2020

assez d'accord. Je pense aussi à des critères de qualité, qu'ils soient techniques (page trop lourde ou trop remplie de JS) ou liés à l'éditorial et l'engagement créé avec l'utilisateur