Annonces Google

Vous êtes ici : Dossiers référencement > Indexation Google

Indexation Google

Cette rubrique regroupe des articles d’actualité, des conseils et des tutoriels pour aider à faire indexer un site et donc optimiser son référencement naturel (SEO). On y parle donc de crawl (exploration), d’indexation de site, de fichiers sitemaps, de comment supprimer une page de Google…

Pour ne rater aucun article, abonnez-vous à ma newsletter ou au flux RSS et suivez-moi sur Twitter, LinkedIn, Facebook ou Google+.

Tout savoir sur le Crawl Budget de Google et son impact SEO
Budget de crawl et SEO Google

Dans : Indexation Google - Par Olivier Duffez, le 17 janvier 2017

Pour que votre site soit bien indexé dans Google, il doit être bien crawlé (exploré). On parle parfois de budget de crawl, ou de quota de crawl, qui limite le crawl de Google. Ce dossier vous dit tout à ce sujet !

 
SEO : 20 conseils sur le fichier robots.txt à ne pas rater
Le fichier robots.txt

Dans : Indexation Google - Par Olivier Duffez, le 3 juin 2016

Le fichier robots.txt, qui permet de bloquer le crawl des moteurs de recherche pour certaines URL ou parties d'un site, a plus de 20 ans : il fut créé le 30 juin 1994 par Martijn Koster. Voici plein de conseils que vous ne connaissiez peut-être pas...

 
SEO : 27 erreurs qui peuvent désindexer vos pages sans que vous vous en rendiez compte
Erreurs SEO indexation

Dans : Indexation Google - Par Olivier Duffez, le 9 mai 2016

Il existe pas mal de cas où vous pouvez faire une erreur avec des instructions noindex ou des URL canoniques. Consultez cet article pour vérifier que ce n'est pas votre cas...

 
Comment désindexer des pages de Google ? Le tuto ultra complet !
Tuto : comment supprimer des pages de Google

Dans : Indexation Google - Par Olivier Duffez, le 22 décembre 2015

Il est bien plus courant qu'on ne l'imagine d'avoir besoin de désindexer des pages de Google, c'est-à-dire de les supprimer de l'index. Ceci permet de nettoyer le site et parfois de sortir d'une pénalité. Voici comment faire...

 
Interdire l'indexation avec l'entête HTTP X-Robots-Tag
X-Robots-Tag

Dans : Indexation Google - Par Olivier Duffez, le 21 août 2015

Pour bloquer l'indexation de certaines pages spécifiques d'un site, il suffit d'utiliser la balise meta robots noindex. Mais comment faire avec des documents qui ne sont pas au format HTML (documents PDF, audio, Word, Excel, Powerpoint, ... et pourquoi pas non plus des flux RSS/Atom) ? Google et Yahoo gèrent la directive X-Robots-Tag qui se déclare directement dans l'entête HTTP, ce qui le rend utilisable avec n'importe quel format de document. Voici quelques précisions sur cette fonctionnalité...

 
Voici pourquoi (et comment) vous devriez vérifier les balises meta robots noindex partout dans (toutes) vos pages
meta robots noindex dans body

Dans : Indexation Google - Par Olivier Duffez, le 22 juin 2015

Vous pensiez qu'on ne trouve une balise meta robots noindex que dans l'entête HTML ? Sachez qu'elles trainent parfois (par erreur) dans le reste de la page et que Google en tient compte. Vérifiez si votre site n'a pas ce problème, comme celui pris en exemple dans cet article.

 
Comment définir rel=canonical dans l'entête HTTP

Dans : Indexation Google - Par Olivier Duffez, le 11 avril 2015

On connaissait la balise d'URL canonique, voici désormais sa version paramétrable directement dans l'entête HTTP. Explications...

 
Google sait crawler des pages dont le contenu s'adapte selon la langue ou le lieu du visiteur
Googlebot crawl paramètres régionaux

Dans : Indexation Google - Par Olivier Duffez, le 2 février 2015

Google sait désormais crawler et indexer des pages dont le contenu s'adapte selon la langue ou le lieu du visiteur (la "locale"). Attention, ce n'est pas pour autant la meilleure conception du site pour le référencement international. Explications...

 
L'indexation d'applications Android dans Google désormais ouverte à tous
App Indexing en France

Dans : Indexation Google - Par Olivier Duffez, le 27 juin 2014

Le système d'indexation d'applications mobiles dans Google est désormais ouvert à tous (mais uniquement Android...), y compris les applis en français avec google.fr. Une nouvelle rubrique est également ajoutée dans Google Webmaster Tools pour lister les erreurs liées à l'appli.

 
Tuto : faire indexer son application mobile dans Google
Indexation applications dans Google

Dans : Indexation Google - Par Olivier Duffez, le 2 juin 2014

Il est désormais possible de faire indexer votre application mobile dans Google, afin qu'elle apparaisse directement dans les résultats de recherche sous forme d'un bouton, quand une des pages de votre site sort dans les SERP (recherche "In App").

 
Google va fournir un outil de démonstration de son interprétation de Javascript
code javascript

Dans : Indexation Google - Par Olivier Duffez, le 27 mai 2014

Globalement, on dit encore que les moteurs de recherche n'interprètent pas le code Javascript et qu'il faut en tenir compte dans une stratégie SEO. C'est vrai mais Google sait de mieux en mieux gérer Javascript.

 
Google : crawl et indexation malgré interdiction via fichier robots.txt ?
Googlebot

Dans : Indexation Google - Par Olivier Duffez, le 10 juin 2013

Depuis 2012 environ, il est parfois difficile de comprendre si Google respecte vraiment bien les directives du fichier robots.txt (qui interdit l'accès aux URL, c'est-à-dire leur crawl, et donc leur indexation). Certaines pages peuvent désormais être trouvables dans Google sans que Google les ait crawlées : elles sont ni indexées ni inconnues... Ce dossier fait le point sur ce sujet.

 
L'équipe antispam de Google surveille les sites qui mettent en ligne d'un seul coup un gros volume de pages
Matt Cutts, responsable du pôle antispam chez Google

Dans : Indexation Google - Par Olivier Duffez, le 18 avril 2013

Dans une réponse en vidéo, Matt Cutts a répondu à la question suivante : un journal souhaite mettre en ligne 200.000 pages d'archives. Faut-il le faire d'un seul coup ou par paquets ?

 
Référencement : différence entre Expires et unavailable_after
Googlebot

Dans : Indexation Google - Par Olivier Duffez, le 19 mars 2013

Ne confondez pas l'entête HTTP Expires et la balise meta unavailable_after, sinon vous risquez d'avoir des problèmes d'indexation Google...

 
Google lit les CSS et JS, mais pour quoi faire exactement ?
Googlebot, le crawler de Google

Dans : Indexation Google - Par Olivier Duffez, le 28 mars 2012

Matt Cutts a indiqué dans une vidéo qu'il ne fallait pas bloquer l'accès à Googlebot aux fichiers CSS et Javascript (via le fichier robots.txt). Pourquoi donc ? Est-ce vraiment une bonne idée de suivre cette recommandation ? Voici quelques éléments de réflexion.

 
Google indexe mieux le Javascript (+AJAX) et les formulaires en POST
Crawl et indexation Google du Javascript

Dans : Indexation Google - Par Olivier Duffez, le 4 novembre 2011

Si vous pensiez être tranquille avec vos pages en AJAX et vos formulaires de type POST (au lieu de GET), sachez que c'est fini ! Googlebot, le robot de Google, sait désormais bien interpréter le Javascript (ainsi qu'AJAX) et les pages résultant d'un envoi de données via la méthode POST d'un formulaire. Pour ceux qui avaient développé un site tout en Javascript ou AJAX, ça peut par contre être une bonne nouvelle. Explications...

 
Les commentaires Facebook désormais indexables par Google
Facebook Comments

Dans : Indexation Google - Par Olivier Duffez, le 2 novembre 2011

Certains sites utilisent le module de commentaires de Facebook, permettant aux internautes de laisser des commentaires sur un site web en étant connecté à leur compte Facebook. Jusqu'alors invisibles de Googlebot, ces commentaires peuvent désormais être indexés.

 
schema.org : standard de données structurées (microdata)

Dans : Indexation Google - Par Olivier Duffez, le 3 juin 2011

Pour mieux comprendre la sémantique des données présentes dans les pages web, les moteurs ont besoin que les données structurées soient formatées avec un standard connu. Jusqu'à présent, plusieurs standards cohabitaient (microformats, RDFa, microdata, etc.). Les 3 moteurs de recherche Google, Bing et Yahoo ont décidé de se regrouper pour créer un nouveau standard commun intitulé schema.org, à la manière du standard sitemaps.org. Explications...

 
Google officialise son infrastructure Caffeine

Dans : Indexation Google - Par Olivier Duffez, le 9 juin 2010

Connue sous le nom de code Caffeine, la nouvelle infrastructure technique de Google est officiellement en place. Comme je l'ai déjà répété à plusieurs reprises, il s'agit surtout de changements internes chez Google qui concernent majoritairement le crawl et l'indexation (la fraîcheur de l'index serait améliorée de 50%). C'est donc seulement de façon indirecte que nous sommes concernés, pas en tant que changement d'algorithme (comme récemment avec May Day).

 
Pubsubhubbub : aide à l'indexation temps réel

Dans : Indexation Google - Par Olivier Duffez, le 5 mars 2010

Pubsubhubbub est un protocole  open source destiné à faciliter les abonnements aux flux RSS/Atom, permettant aux abonnés d'être notifiés en quasi temps réel de l'arrivée de nouveaux éléments, tout en réduisant la charge des éditeurs hébergeant ces flux. Développé par Brad Fitzpatrick, Brett Slatkin et Mihai Parparita, 3 ingénieurs de Google, Pubsubhubbub est déployé progressivement sur un grand nombre de produits Google. WordPress le propose via un plugin, et vous, allez-vous l'adopter ? Cet article vous explique tout !

 
Configurer les options de passage de Googlebot sur son site

Dans : Indexation Google - Par Olivier Duffez, le 5 décembre 2008

Dans Search Console, vous pouvez choisir de paramétrer des options pour la fréquence des visites du robot Googlebot pour qu'il vienne plus ou moins souvent sur votre site, en fonction de la charge du serveur.

 
2 millions de serveurs dans les data centers Google ?

Dans : Indexation Google - Par Olivier Duffez, le 31 octobre 2008

L'infrastructure technique impressionnante de Google est certainement un des éléments clés de sa réussite d'une part, et des difficultés des concurrents pour le rattraper. The Economist estime aujourd'hui à 2 millions le nombre de serveurs utilisés par Google dans ses différents data centers.

 
Sites blacklistés par Google

Dans : Indexation Google - Par Olivier Duffez, le 6 septembre 2008

Cet article présente la notion de blacklistage (blacklisting) de Google et indique ce qu'il faut faire si votre site est ainsi banni de l'index Google.

 
Description du cache de Google
Googlebot, le crawler de Google

Dans : Indexation Google - Par Olivier Duffez, le 6 septembre 2008

Pour indexer des millions de pages tous les jours, Google utilise une "armée" de robots d'indexation, appelés GoogleBot (lire l'étude sur GoogleBot pour en savoir plus). A chaque fois qu'un de ces robots visite une page, il la récupère et la stocke sur un des serveurs de Google. Cette version du document est appelée la version cache. On comprend vite qu'avec des milliards de documents Google ait besoin de plus de 10 000 serveurs (et beaucoup de disques durs...).

 
Google Data Centers

Dans : Indexation Google - Par Olivier Duffez, le 6 septembre 2008

Les milliers de serveurs de Google sont répartis sur des centres de données, appelés Data Centers. Voici la liste des premiers data centers de Google...

 
Présentation du système d'indexation de Google

Dans : Indexation Google - Par Olivier Duffez, le 5 septembre 2008

Cet article présente le système de crawl (récupération des documents web) et d'indexation (analyse des documents web) par Google.

 
Les mécanismes du crawl de Google

Dans : Indexation Google - Par Olivier Duffez, le 20 août 2008

Depuis l'été 2007, Google a considérablement amélioré son système de crawl : non seulement le moteur semble arriver à indexer les très nombreuses pages créées chaque jour sur le web, mais il n'est plus rare de voir des pages indexées en quelques minutes à peine ! Voici quelques explications issues d'un brevet de Google qui décrit les différents types de crawlers et leurs rôles respectifs.

 
Google a répertorié 1000 milliards de pages sur le web !

Dans : Indexation Google - Par Olivier Duffez, le 25 juillet 2008

1 trillion, c'est-à-dire mille milliards (1.000.000.000.000) : voilà le nombre de pages web distinctes que Google a répertorié ! Jesse Alpert et Nissan Hajaj (2 ingénieurs de Google de l'équipe en charge de l'infrastructure de la recherche) donnent quelques chiffres qui donnent le tournis...

 
Google sait désormais indexer le texte des animations Flash

Dans : Indexation Google - Par Olivier Duffez, le 1 juillet 2008

Le référencement de sites Flash a toujours été difficile, cela devrait s'améliorer : Google vient d'annoncer avoir mis en place de nouvelles fonctionnalités lui permettant d'indexer les contenus texte intégrés dans les animations Flash (fichiers SWF). Cela permettra aux sites en Flash d'être mieux référencés... mais ce ne sera pas encore le top, voici pourquoi.

 
Google n'indexe pas les URL qui se terminent par .0 ?

Dans : Indexation Google - Par Olivier Duffez, le 13 juin 2008

D'après une étude de cas de SEOmoz, il semblerait que la plupart des URL qui se terminent par .0 (le chiffre zéro) ne soient pas indexées dans Google. En attendant que ça change du côté de Google, il vaut mieux vérifier si on est concerné sur son site !

 
Googlebot remplit les formulaires !

Dans : Indexation Google - Par Olivier Duffez, le 14 avril 2008

Alors que jusqu'à présent les pages accessibles uniquement via un formulaire font partie de ce qu'on appelle le web invisible (des moteurs de recherche), Google a commencé à expérimenter le crawl des formulaires. C'est à la fois une bonne et une mauvaise nouvelle... explications.

 
Les adresses IP de Google et Googlebot

Dans : Indexation Google - Par Olivier Duffez, le 5 octobre 2006

Matt Cutts fait le point sur les différentes adresses IP utilisées par Googlebot et les autres produits ou services de Google.

 
Google crawle les fichiers CSS

Dans : Indexation Google - Par Olivier Duffez, le 25 juin 2006

Jusqu'à présent, Google ignorait totalement les feuilles de styles (CSS), mais on voit désormais des robots de Google venir les crawler. Quels sont les objectifs de Google ?

 
Googlebot analyse certains codes JavaScript

Dans : Indexation Google - Par Olivier Duffez, le 2 mai 2006

Apparemment Googlebot arrive a analyser les codes Javascript contrairement à tout ce qu'on a pu entendre pour le moment, et il arrive meme à déceler les URL à l'intérieur de ces Javascript (il cherche à trouver les URL présentes dans le code et à les suivre)...

 
Le Crawl Caching Proxy de Google

Dans : Indexation Google - Par Olivier Duffez, le 26 avril 2006

Google a mis en place un système appelé Crawl Caching Proxy : voici quelques explications...

 
Description du Google File System (GFS)

Dans : Indexation Google - Par Olivier Duffez, le 27 janvier 2006

Voici quelques explications supplémentaires au sujet du Système de Fichiers Google (Google File System, GFS), l'architecture de Google.

 
BigDaddy, le nouveau data center de test de Google

Dans : Indexation Google - Par Olivier Duffez, le 6 janvier 2006

Matt Cutts (ingénieur chez Google) vient d'annoncer qu'un nouveau data center a été mis en ligne. Baptisé Big Daddy, ce data center fournit des résultats différents de ceux des autres data centers, qui pourraient d'ailleurs se retrouver prochainement sur les data centers "officiels" de Google. Explications...

 
Google veut-il dépasser les 20 milliards de pages de Yahoo ?

Dans : Indexation Google - Par Olivier Duffez, le 9 septembre 2005

Il semblerait que l'annonce de Yahoo faisant état d'environ 20 milliards de documents web indexés ait irrité Google. Stratégie marketing ou réalité, il est désormais difficile de faire la part des choses, mais depuis quelques jours Google semble afficher des nombres de résultats en forte hausse.

 
Google indexe plus de 8 milliards de pages

Dans : Indexation Google - Par Olivier Duffez, le 11 novembre 2004

Google vient de mettre à jour l'indication du nombre de pages présentes dans son index, passant de 4 285 199 774 à 8 058 044 651 pages. Ce n'est pas si étonnant que ça puisque l'on avait remarqué depuis longtemps que certaine requêtes fournissent plus de 4 milliards de résultats (attention toutefois, cette indication n'étant qu'une estimation), et que les robots de Google avaient largement intensifié leur activité depuis quelques semaines. Ainsi par exemple la requête "the" renvoie environ 8 milliards de résultats.

 
Google indexe le Flash depuis avril 2004

Dans : Indexation Google - Par Olivier Duffez, le 28 avril 2004

Le référencement du Flash a toujours posé problème, car Google n'indexe que très mal ce type de fichier. On savait que Google pouvait trouver les liens dans les animations Flash, mais l'indexation se limitait aux recherches de liens. Ce type de lien est d'ailleurs compté en tant que backlink et participe donc au PageRank. Google prouve aujourd'hui qu'il est capable d'indexer le texte présent dans les animations Flash.

 
Google veut référencer les livres

Dans : Indexation Google - Par Olivier Duffez, le 31 octobre 2003

Alors que la relation entre Google et Amazon oscille entre partenariat et concurrence, avec notamment la nouvelle possibilité sur le site d'Amazon de faire des recherches en texte intégral, Google s'apprête à copier Amazon en se lançant dans le référencement de livres en texte intégral.

 
Googlebot expliqué en détails

Dans : Indexation Google - Par Olivier Duffez, le 21 février 2003

GoogleBot est le nom du robot d'indexation de Google. Ce robot est programmé pour fonctionner sur des centaines de machines à la fois, avec des adresses IP différentes. Il faut dire qu'il a 3 milliards de documents à mettre à jour régulièrement, et des millions de nouveaux à découvrir...

 
La vie d'une page sur le web : Fresh Crawl, Deep Crawl, Google Dance...

Dans : Indexation Google - Par Olivier Duffez, le 22 novembre 2002

Mise à jour : cet article date de plusieurs années, attention à le lire pour votre culture web personnelle ! En effet bien des choses ont changé : Google est mis à jour en permanence (crawl, indexation, algorithme, etc.) et les techniques décrites ici ne sont plus forcément applicables à 100% (par exemple il n'existe plus vraiment de Deep Crawl, Fresh Crawl et autres Full Crawl ou Google Dance)...

La vie d'une page sur le web est ponctuée en général de nombreuses visites, que ce soit de visiteurs (humains), de robots de moteurs de recherche voire de logiciel (aspirateurs de sites). Si la dernière catégorie n'intéresse pas vraiment le webmaster, il souhaite en général augmenter la fréquence des deux autres... Intéressons-nous aux visites des robots, par exemple celles de GoogleBot, le robot de Google.

 
Google passe le cap des 3 milliards de pages

Dans : Indexation Google - Par Olivier Duffez, le 6 novembre 2002

Comme on peut le voir sur sa page d'accueil, Google indexe maintenant plus de 3 milliards de documents : "Nombre de pages Web recensées par Google : 3,083,324,652".

 

Annonces Google

Catégories des dossiers

Consultez les dossiers par thématiques :

Annonces Google

Formation référencement et webmarketing

Venez chez Ranking Metrics vous former au référencement, à Google AdWords et Analytics ainsi qu'aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (Dossier possible OPCA...).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation).

Hébergement web

Hébergement web mutualisé et dédié

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit by Nerim, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo.

A partir de 3€ HT/mois.