crawl indexation Google
Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Le crawl prédictif de Google : il ne veut plus tout indexer...

C'est plus dur qu'avant de faire indexer (et même crawler) des pages dans Google. Découvrez ce qui a changé chez Google et comment savoir si votre site est concerné.

Si vous avez rencontré ces derniers temps des problèmes pour faire crawler ou indexer vos pages dans Google, ce dossier va vous intéresser.

Je vais vous résumer ce qui s'est passé dès 2020 à ce sujet, puis vous expliquer un changement majeur concernant le crawl de Google (avec donc un impact sur l'indexation).

Et aujourd'hui, vos difficultés à faire indexer vos pages dans Google sont sans doute encore plus grandes. Alors lisez bien l'article !

Les problèmes de crawl et d'indexation de Google fin 2020

Google a de temps en temps des problèmes pour le crawl et/ou l'indexation. Parfois au point de communiquer dessus, comme ce fut particulièrement le cas en 2020, surtout après l'été.

😫 Il y a eu par exemple le 29 septembre un bug qui affectait l'indexation dans Google Actualités. Mais il a été corrigé juste après avoir été officialisé.

🥵 Le 2 octobre, ça devient plus méchant : 2 bugs font carrément désindexer des pages ! Le premier était lié à l'index mobile-first, le second à l'URL canonique. Ils ont été officiellement résolus les 9 et 20 octobre.

😡 Pour énerver un peu plus tout le monde, en plein milieu de ces bugs, Google a désactivé l'outil permettant de demander l'indexation d'une URL précise.

Outil de demande d'indexation désactivé
Google a désactivé la possibilité de faire une demande d'indexation via Search Console

Le 22 décembre, Google annonce (enfin) que cet outil est remis en service. Mais ça ne change pas vraiment les choses, car ça n'est qu'un outil de dépannage. En effet, vos pages ne devraient pas avoir besoin de ça pour être (rapidement) indexées.

Qu'en est-il aujourd'hui ?

  • Google : "les bugs/problèmes sont officiellement corrigés"
  • les SEO : "je n'arrive pas à faire indexer mes pages"

Qui a raison ? Malheureusement, c'est souvent Google qui a raison ici !

Je vous explique ça...

La nouveauté de Google qui change tout pour le crawl

Je vais prendre une image pour expliquer… 🏨

Imaginons une entreprise qui édite un guide des hôtels, très utilisé par les clients, donc incontournable pour les hôteliers. Elle envoie régulièrement ses "experts" vérifier la qualité des hôtels. Ces experts vont aussi bien tester des nouveaux hôtels que ceux déjà connus.

Tous ces tests coûtent cher, si bien que ce guide décide de réduire les tests. L'idée est de favoriser les bons hôtels et délaisser les moins bons…

Imaginons une chaîne d'hôtels (par exemple en franchise) qui n'est pas vraiment bien notée : trop de ses hôtels déçoivent. Le guide va moins souvent envoyer ses experts tester les hôtels de cette chaîne !

Si l'hôtel n'est même pas visité (testé), il est exclu sans avoir eu la chance de faire ses preuves !

  • C'est frustrant si l'hôtel vient d'ouvrir : il est pénalisé par la réputation de la chaîne
  • C'est horrible si l'hôtel a été racheté, alors que le nouveau propriétaire fait tout au top…

Vous l'avez déjà compris :

  • L'entreprise qui édite ce guide qui fait la loi dans le marché, c'est Google
  • La chaîne d'hôtels, c'est votre site. Chaque hôtel, c'est une page
  • L'expert qui vient tester un hôtel, c'est Googlebot qui crawle une page puis l'évalue

Evidemment, le but principal du SEO c'est de réussir à être bien positionné. Le fameux ranking.

Avant ça, vous savez que vos pages doivent être indexées. Sans indexation, pas de ranking.

Mais si la page n'est même pas crawlée ?

pas de crawl ➡ pas d'indexation ➡ pas de ranking
(pas de chocolat non plus)

Pas de crawl, pas de chocolat !

Si Google décide de ne pas venir crawler une page, toutes vos chances de réussite s'écroulent. Vous êtes dégoûté, comme l'hôtelier qui n'a même pas eu la chance de prouver sa qualité. Conclusion :

Google instaure un délit de sale gueule !

Est-ce vrai tout ça ?

N'est-ce pas juste une histoire que j'invente ? 🎭

Si Google n'indexe pas mes pages, n'est-ce pas à cause de tous ses bugs ?

Désolé de vous décevoir : c'est bien vrai. Google évolue…

Le 11 novembre 2020, Martin Splitt (de chez Google) répond à des questions de SEO sur YouTube.

Vidéo Google novembre 2020

Vers 20' sur cette vidéo, il déclare :

Je sais que nous utilisons le machine learning pour identifier ou prédire la qualité que nous obtiendrons d'un crawl. Il est intéressant d'essayer de prédire le niveau de qualité que nous pouvons obtenir d'un crawl spécifique avant même qu'il ne se produise.
Cela permet à Google de planifier son crawl de manière plus intelligente.

Martin Splitt (de Google), le 11/11/2020

Vous avez bien lu :

Google utilise l'IA pour évaluer à l'avance si ça vaut le coup de crawler une page

Je vais vous expliquer qu'en creusant un peu, ce changement n'est pas une surprise. Si vous êtes pressé, vous pouvez aussi sauter aux sections suivantes.

Google invente donc le crawl utile : on parle de crawl prédictif.

Crawler le web devient très compliqué et même pour Google, ça coûte (trop) cher. Pour réduire le coût, Google veut identifier ce qui est prioritaire à crawler. Il ne veut plus crawler tous les sites, ou toutes les pages d'un site, ou trop souvent.

D'ailleurs, comme moi vous avez certainement reçu ce mail de Google début décembre :

Changement stockage Google 2020-2021
En décembre 2020, Google annonce une réduction du stockage gratuit sur ses services à partir de 2021

Revenons à cette idée de vouloir limiter le crawl. Ce changement est-il récent chez Google ?

Dès 2019, des chercheurs chez Google ont publié un article détaillant des méthodes de crawl prédictif permettant d'économiser des ressources.

Article de Google sur le crawl prédictif
Article de Google sur le crawl prédictif, publié en 2019

Je ne doute pas une seconde que vous irez lire et analyser cet article (PDF). Comme je suis très sympa, je vous fais un court résumé...

Réduction du crawl
Réduire les crawls inutiles grâce à la prédiction via machine learning

Cet article détaille un système qui prédit les changements de prix sur des sites ecommerce. Il permet d'éviter des crawls inutiles. Les auteurs expliquaient en 2019 pouvoir l'adapter à d'autres crawls plus génériques.

On va s'arrêter là dans la recherche et rentrer dans du concret...

Quelles solutions ?

Un tuto premium avec explications avancées

Avec Fabien Facériès (mon associé chez My Ranking Metrics), on a fait de la R&D pendant quelques semaines sur ce sujet. On a abouti à une méthode qui intéressera ceux qui sont concernés par ces problèmes.

On a tout rassemblé dans un tuto vidéo premium :

  • des explications plus complètes sur les changements de Google
  • des moyens d'identifier de façon plus fine si un site est concerné, et mieux comprendre quelles pages (et donc deviner certaines causes ainsi que pour aider à prioriser les actions)
  • la solution à court terme, pour 1 URL ou quelques unes
  • la solution à moyen/long terme pour de multiples pages
  • 3 bonus : ma méthode pour gagner un temps fou dans l'analyse des pages à problème, pour travailler par types de pages et pour se concentrer sur les pages récentes

Vous connaissez mon sérieux en SEO, ce tuto va sûrement vous plaire 🤩

Créez-vous un compte et achetez-le sur My Ranking Metrics

Autres conseils

En plus de ce tuto vidéo, ne ratez pas mes autres ressources :

Votre site est-il concerné par les problèmes de crawl ?

Le cas le plus grave (en théorie), c'est quand Google ne vient même pas crawler vos pages. Car dans ce cas, elles ne peuvent pas être indexées (ou mises à jour).

La façon la plus précise de le vérifier, c'est d'analyser les fichiers logs sur votre serveur.

Comme je sais très bien qu'une grande partie parmi vous a du mal à accéder aux logs (ou à les analyser), on a trouvé une méthode extrêmement simple.

Pour la découvrir, il vous suffit de créer un compte My Ranking Metrics si ce n'est pas déjà fait (ça prend 2 minutes et c'est évidemment gratuit).

Ensuite, suivez les explications sur cette page (vous la trouverez aussi listée dans les tutos).

Bonus

Suite au succès de cet article et de notre tuto premium, on a décidé de vous faire encore un cadeau 🎁

Sur les 7 points abordés dans le tuto, on vous offre les 2 premiers :-)

Pour en bénéficier c'est très simple :

  1. vous partagez en public cet article sur LinkedIn, Facebook ou Twitter, sans oublier de faire un petit texte / commentaire (donnez votre avis sur le sujet, ou vos retours d'expérience), ainsi que les hashtags #seo #myrankingmetrics
  2. si vous n'avez pas encore de compte My Ranking Metrics, vous en créez un ici
  3. vous utilisez ce formulaire de contact pour demander votre cadeau en indiquant l'URL du post où vous avez partagé l'article

Cet article vous a-t-il plu ?

Note : 4.1 (37 votes)
Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

13 commentaires

Phil

Le but avoué de ces système gratuits d'indexation Google , étant de créer au final des clients annonceurs
Quand google se plante , les gens changent de système et reçoivent des cadeaux important chez les autres , tel Bing et ses 75€ d'offerts pour annoncer ...
Pour ma part je n'utilise plus rien de Google et mis des restrictions sur mon porte monnaye et restrictions dans robots.txt

Répondre
Olivier Duffez

Sans Google, il ne doit plus rester beaucoup de trafic alors !

Répondre
Le journal Abrasif

pas de crawl ➡ pas d'indexation ➡ pas de ranking

chez Le journal abrasif Google Crawl beaucoup et déclasse à fond ! Sérieux, les nouvelles pages articles sont indexées en quelques minutes et les anciennes pages sont déclassées.

Répondre
Olivier Duffez

J'ai expliqué qu'une page non crawlée ne peut pas être indexée.
ça ne signifie pas qu'une page crawlée est forcément indexée.
de la même manière qu'une page indexée n'est pas forcément bien positionnée.

Répondre
Le journal Abrasif

Merci Olivier, je suis un peu perdu… C'est plus clair ainsi.

Répondre
Marina

En regardant "super size me 2" il y a quelques jours, je me suis rendu-compte que nous sommes nous aussi des petits producteurs qui dépendent d'un grand groupe.
Il y a des fermiers qui produisent des poulets et il y a nous qui produisons du contenu pour gagner notre vie sur internet.
Je suis frappée dans les deux cas de voir la détresse des "petits producteurs" qui pleurent au sens propre du terme quand ils se rendent compte qu'une grosse compagnie les a déclassés pour des raisons inexplicables.
C'est toujours pareil: "vous n'avez pas atteint les objectifs" ou "vous n'avez pas suivit correctement nos guidelines pourtant simples" alors on vous déclasse. Pourquoi? on ne sait pas. A-t-on un interlocuteur à qui demander des explications? Non.

Que nous travaillions dans la production de poulets, de sites internet c'est pareil: se sont de grosses sociétés américaines qui imposent leur lois et avec une façon de penser elle aussi très américaine.
La qualité? On s'en fiche complètement. Il faut qu'un site soit rentable, facile à crawler, il faut qu'un poulet grossisse en 6 semaines, le reste peu importe.

Le 4 mai, j'ai perdu une grosse partie de mes visiteur. Marre de devoir toujours tout refaire, je n'ai rien fait du tout. Update de décembre, remontée dans les serps. La qualité n'a donc, pour moi, plus rien de pertinent en SEO.

Mais surtout j'en ai marre de voir des webmasters malheureux parcequ'ils aiment leur métier...

Répondre
Olivier Duffez

On trouve toujours des contre-exemples, mais moi je vois aussi beaucoup de monde qui "pleure" ou ne sait pas quoi faire, alors que le site est bourré de problèmes techniques ou de contenus de qualité clairement insuffisante...

Répondre
bernard

et donc @marina.. c'est le moment de passer au SEM ( mais pas que Fbook Ads et GG ads..) là au moins tu es sûre de recevoir du traffic..
Mais c'est vrai qu'on s'éloigne du SEO...

Répondre
Boogs

Bonjour, super article encore une fois, merci !
Assez d'accord avec Visaboy, on voit bien que la taille de l'entreprise et la stratégie qui en découle s'éloigne de + en + de l'utilisateur non rentable pour lui... Mais pour l'heure oui, pas le choix que de suivre les recommandations.
Nous sommes cependant actuellement en train de tester des outils français qui même s'ils ne se révèlent pas du tout à la hauteur pour le moment, pourraient être une première alternative à ce monopole aberrant du big G... Qwant, mailo, olvid, OVH... Avez-vous prévu d'écrire à leur sujet prochainement ?

Répondre
Olivier Duffez

Je ne suis pas d'accord, ce changement n'est pas diamétralement opposé à la satisfaction utilisateur. Les pages que Google ne veut plus crawler sont généralement de faible qualité, c'est ce que je constate quand j'étudie plein de sites.
Qwant comme alternative à Google, je n'y crois malheureusement pas.

Répondre
1001 nordiques

Mais on ne sait toujours pas pourquoi Google ne pénalise pas encore les sites de grosse audience qui mettent des pop-ups dans tous les sens et fournissent des publicités douteuses...

Franchement, le matin, lorsque je lis sur la tablette les news dans Google Discover, ça devient plus que pénible comme expérience. Et j'ai oublié de parler aussi des sites qui détournent le retour arrière afin de rester plus longtemps. ça devrait être pénaliser ce type de procédés.

Répondre
visaboy

c'est surtout des gros cxxxx chez google, car à force de faire sans arrêt ce genre d'évolution (car maintenant qu'il a assez de page, il vire tout le monde) les gens vont commencés à en avoir marre et pire, se barrer définitivement du net, c'est ça qu'il lui pend au nez... sur 10 potes webmaster / réf, j'en ai plus que 3 sur skype depuis 3 ans... à force de jouer avec le feu et de trop tirer sur la corde, il va se brûler, ca c'est une certitude mathématique :-). Car la plupart des changements ne sont pas un but d'amélioration (j'ai dis la plupart, pas tous...) C'est uniquement dans un but commercial et financier, la preuve encore une fois de plus.... Et sois dit en passant pour ceux qui sont sur Youtube aussi il va y avoir de grosses modifs en 2021... donc, je dis attention à Google, car a force de trop tiré sur la corde ça va péter...

Répondre
Olivier Duffez

Bien entendu que c'est pour gagner de l'argent. C'est horrible à dire, surtout concernant une entreprise qui en gagne autant.
Maintenant, à notre niveau, je pense qu'il faut tenir compte de ces évolutions ou alors accepter de voir ses problèmes SEO augmenter...

Répondre