Tout sur l'indexation de sites

Indexation Google

Cette rubrique regroupe des articles d’actualité, des conseils et des tutoriels pour aider à faire indexer un site et donc optimiser son référencement naturel (SEO). On y parle donc de crawl (exploration), d’indexation de site, de fichiers sitemaps, de comment supprimer une page de Google…

Olivier Duffez

Suivez-moi :

Compte LinkedIn Olivier Duffez Compte Twitter Olivier Duffez Compte Facebook Olivier Duffez Chaine Youtube WebRankInfo
bazar suivi liens internes nofollow

Quel impact si Google suit les liens nofollow internes ?

Depuis le 1er mars 2020, Google peut décider de suivre des liens nofollow. En interne, ça peut mettre le bazar (masse noire) si vous ne faites pas attention. Découvrez comment vérifier si cela impacte le SEO de votre site et les solutions à adopter.

Le

Googlebot

Google : crawl et indexation malgré interdiction via fichier robots.txt ?

Depuis 2012 environ, il est parfois difficile de comprendre si Google respecte vraiment bien les directives du fichier robots.txt (qui interdit l'accès aux URL, c'est-à-dire leur crawl, et donc leur indexation). Certaines pages peuvent désormais être trouvables dans Google sans que Google les ait crawlées : elles sont ni indexées ni inconnues... Ce dossier fait le point sur ce sujet.

Le

meta robots noindex dans body

Vérifiez les balises meta robots noindex partout dans toutes vos pages !

Vous pensiez qu'on ne trouve une balise meta robots noindex que dans l'entête HTML ? Sachez qu'elles trainent parfois (par erreur) dans le reste de la page et que Google en tient compte. Vérifiez si votre site n'a pas ce problème, comme celui pris en exemple dans cet article.

Le

Budget de crawl et SEO Google

Tout savoir sur le Crawl Budget de Google et son impact SEO

Pour que votre site soit bien indexé dans Google, il doit être bien crawlé (exploré). On parle parfois de budget de crawl, ou de quota de crawl, qui limite le crawl de Google. Ce dossier vous dit tout à ce sujet !

Le

X-Robots-Tag

Interdire l'indexation avec l'entête HTTP X-Robots-Tag

Pour bloquer l'indexation de certaines pages spécifiques d'un site, il suffit d'utiliser la balise meta robots noindex. Mais comment faire avec des documents qui ne sont pas au format HTML (documents PDF, audio, Word, Excel, Powerpoint, ... et pourquoi pas non plus des flux RSS/Atom) ? Google et Yahoo gèrent la directive X-Robots-Tag qui se déclare directement dans l'entête HTTP, ce qui le rend utilisable avec n'importe quel format de document. Voici quelques précisions sur cette fonctionnalité...

Le

Indexation applications dans Google

Tuto : faire indexer son application mobile dans Google

Il est désormais possible de faire indexer votre application mobile dans Google, afin qu'elle apparaisse directement dans les résultats de recherche sous forme d'un bouton, quand une des pages de votre site sort dans les SERP (recherche "In App").

Le

Googlebot, le crawler de Google

Google lit les CSS et JS, mais pour quoi faire exactement ?

Matt Cutts a indiqué dans une vidéo qu'il ne fallait pas bloquer l'accès à Googlebot aux fichiers CSS et Javascript (via le fichier robots.txt). Pourquoi donc ? Est-ce vraiment une bonne idée de suivre cette recommandation ? Voici quelques éléments de réflexion.

Le

Crawl et indexation Google du Javascript

Google indexe mieux le Javascript (+AJAX) et les formulaires en POST

Si vous pensiez être tranquille avec vos pages en AJAX et vos formulaires de type POST (au lieu de GET), sachez que c'est fini ! Googlebot, le robot de Google, sait désormais bien interpréter le Javascript (ainsi qu'AJAX) et les pages résultant d'un envoi de données via la méthode POST d'un formulaire. Pour ceux qui avaient développé un site tout en Javascript ou AJAX, ça peut par contre être une bonne nouvelle. Explications...

Le

schema.org : standard de données structurées (microdata)

Pour mieux comprendre la sémantique des données présentes dans les pages web, les moteurs ont besoin que les données structurées soient formatées avec un standard connu. Jusqu'à présent, plusieurs standards cohabitaient (microformats, RDFa, microdata, etc.). Les 3 moteurs de recherche Google, Bing et Yahoo ont décidé de se regrouper pour créer un nouveau standard commun intitulé schema.org, à la manière du standard sitemaps.org. Explications...

Le

Google officialise son infrastructure Caffeine

Connue sous le nom de code Caffeine, la nouvelle infrastructure technique de Google est officiellement en place. Comme je l'ai déjà répété à plusieurs reprises, il s'agit surtout de changements internes chez Google qui concernent majoritairement le crawl et l'indexation (la fraîcheur de l'index serait améliorée de 50%). C'est donc seulement de façon indirecte que nous sommes concernés, pas en tant que changement d'algorithme (comme récemment avec May Day).

Le

Pubsubhubbub : aide à l'indexation temps réel

Pubsubhubbub est un protocole  open source destiné à faciliter les abonnements aux flux RSS/Atom, permettant aux abonnés d'être notifiés en quasi temps réel de l'arrivée de nouveaux éléments, tout en réduisant la charge des éditeurs hébergeant ces flux. Développé par Brad Fitzpatrick, Brett Slatkin et Mihai Parparita, 3 ingénieurs de Google, Pubsubhubbub est déployé progressivement sur un grand nombre de produits Google. Wordpress le propose via un plugin, et vous, allez-vous l'adopter ? Cet article vous explique tout !

Le

2 millions de serveurs dans les data centers Google ?

L'infrastructure technique impressionnante de Google est certainement un des éléments clés de sa réussite d'une part, et des difficultés des concurrents pour le rattraper. The Economist estime aujourd'hui à 2 millions le nombre de serveurs utilisés par Google dans ses différents data centers.

Le

Sites blacklistés par Google

Cet article présente la notion de blacklistage (blacklisting) de Google et indique ce qu'il faut faire si votre site est ainsi banni de l'index Google.

Le

Googlebot, le crawler de Google

Description du cache de Google

Pour indexer des millions de pages tous les jours, Google utilise une "armée" de robots d'indexation, appelés GoogleBot (lire l'étude sur GoogleBot pour en savoir plus). A chaque fois qu'un de ces robots visite une page, il la récupère et la stocke sur un des serveurs de Google. Cette version du document est appelée la version cache. On comprend vite qu'avec des milliards de documents Google ait besoin de plus de 10 000 serveurs (et beaucoup de disques durs...).

Le

Liste des Google Data Centers

Les milliers de serveurs de Google sont répartis sur des centres de données, appelés Data Centers. Voici la liste des premiers data centers de Google...

Le

Google a répertorié 1000 milliards de pages sur le web !

1 trillion, c'est-à-dire mille milliards (1.000.000.000.000) : voilà le nombre de pages web distinctes que Google a répertorié ! Jesse Alpert et Nissan Hajaj (2 ingénieurs de Google de l'équipe en charge de l'infrastructure de la recherche) donnent quelques chiffres qui donnent le tournis...

Le

Googlebot remplit les formulaires !

Alors que jusqu'à présent les pages accessibles uniquement via un formulaire font partie de ce qu'on appelle le web invisible (des moteurs de recherche), Google a commencé à expérimenter le crawl des formulaires. C'est à la fois une bonne et une mauvaise nouvelle... explications.

Le

Google crawle les fichiers CSS

Jusqu'à présent, Google ignorait totalement les feuilles de styles (CSS), mais on voit désormais des robots de Google venir les crawler. Quels sont les objectifs de Google ?

Le