Indexation Google
Cette rubrique regroupe des articles d’actualité, des conseils et des tutoriels pour aider à faire indexer un site et donc optimiser son référencement naturel (SEO).
Vous pouvez vous abonner par email (newsletter) ou par RSS et me suivre sur Twitter, Facebook ou Google+.
Si vous appréciez cette rubrique, dites-le en cliquant sur ces boutons :

Dans : Indexation Google - Par Olivier Duffez, le 4 novembre 2011
Si vous pensiez être tranquille avec vos pages en AJAX et vos formulaires de type POST (au lieu de GET), sachez que c'est fini ! Googlebot, le robot de Google, sait désormais bien interpréter le Javascript (ainsi qu'AJAX) et les pages résultant d'un envoi de données via la méthode POST d'un formulaire. Pour ceux qui avaient développé un site tout en Javascript ou AJAX, ça peut par contre être une bonne nouvelle. Explications...

Dans : Indexation Google - Par Olivier Duffez, le 2 novembre 2011
Certains sites utilisent le module de commentaires de Facebook, permettant aux internautes de laisser des commentaires sur un site web en étant connecté à leur compte Facebook. Jusqu'alors invisibles de Googlebot, ces commentaires peuvent désormais être indexés.
Dans : Indexation Google - Par Olivier Duffez, le 20 juin 2011
On connaissait la balise d'URL canonique, voici désormais sa version paramétrable directement dans l'entête HTTP. Explications...
Dans : Indexation Google - Par Olivier Duffez, le 3 juin 2011
Pour mieux comprendre la sémantique des données présentes dans les pages web, les moteurs ont besoin que les données structurées soient formatées avec un standard connu. Jusqu'à présent, plusieurs standards cohabitaient (microformats, RDFa, microdata, etc.). Les 3 moteurs de recherche Google, Bing et Yahoo ont décidé de se regrouper pour créer un nouveau standard commun intitulé schema.org, à la manière du standard sitemaps.org. Explications...
Dans : Indexation Google - Par Olivier Duffez, le 9 juin 2010
Connue sous le nom de code Caffeine, la nouvelle infrastructure technique de Google est officiellement en place. Comme je l'ai déjà répété à plusieurs reprises, il s'agit surtout de changements internes chez Google qui concernent majoritairement le crawl et l'indexation (la fraîcheur de l'index serait améliorée de 50%). C'est donc seulement de façon indirecte que nous sommes concernés, pas en tant que changement d'algorithme (comme récemment avec May Day).
Dans : Indexation Google - Par Olivier Duffez, le 5 mars 2010
Pubsubhubbub est un protocole open source destiné à faciliter les abonnements aux flux RSS/Atom, permettant aux abonnés d'être notifiés en quasi temps réel de l'arrivée de nouveaux éléments, tout en réduisant la charge des éditeurs hébergeant ces flux. Développé par Brad Fitzpatrick, Brett Slatkin et Mihai Parparita, 3 ingénieurs de Google, Pubsubhubbub est déployé progressivement sur un grand nombre de produits Google. WordPress le propose via un plugin, et vous, allez-vous l'adopter ? Cet article vous explique tout !
Dans : Indexation Google - Par Olivier Duffez, le 6 septembre 2008
Cet article présente la notion de blacklistage (blacklisting) de Google et indique ce qu'il faut faire si votre site est ainsi banni de l'index Google.

Dans : Indexation Google - Par Olivier Duffez, le 6 septembre 2008
Pour indexer des millions de pages tous les jours, Google utilise une "armée" de robots d'indexation, appelés GoogleBot (lire l'étude sur GoogleBot pour en savoir plus). A chaque fois qu'un de ces robots visite une page, il la récupère et la stocke sur un des serveurs de Google. Cette version du document est appelée la version cache. On comprend vite qu'avec des milliards de documents Google ait besoin de plus de 10 000 serveurs (et beaucoup de disques durs...).
Dans : Indexation Google - Par Olivier Duffez, le 6 septembre 2008
Les milliers de serveurs de Google sont répartis sur des centres de données, appelés Data Centers. Voici la liste des premiers data centers de Google...
Dans : Indexation Google - Par Olivier Duffez, le 5 septembre 2008
Petite étude réalisée en 2002 et 2003 sur les différentes formes de Googlebot, le robot de crawl de Google.
Dans : Indexation Google - Par Olivier Duffez, le 5 septembre 2008
Cet article présente le système de crawl (récupération des documents web) et d'indexation (analyse des documents web) par Google.
Dans : Indexation Google - Par Olivier Duffez, le 20 août 2008
Depuis l'été 2007, Google a considérablement amélioré son système de crawl : non seulement le moteur semble arriver à indexer les très nombreuses pages créées chaque jour sur le web, mais il n'est plus rare de voir des pages indexées en quelques minutes à peine ! Voici quelques explications issues d'un brevet de Google qui décrit les différents types de crawlers et leurs rôles respectifs.
Dans : Indexation Google - Par Olivier Duffez, le 14 avril 2008
Alors que jusqu'à présent les pages accessibles uniquement via un formulaire font partie de ce qu'on appelle le web invisible (des moteurs de recherche), Google a commencé à expérimenter le crawl des formulaires. C'est à la fois une bonne et une mauvaise nouvelle... explications.
Dans : Indexation Google - Par Olivier Duffez, le 13 décembre 2007
Pour bloquer l'indexation de certaines pages spécifiques d'un site, il suffit d'utiliser la balise meta robots noindex. Mais comment faire avec des documents qui ne sont pas au format HTML (documents PDF, audio, Word, Excel, Powerpoint, ... et pourquoi pas non plus des flux RSS/Atom) ? Google et Yahoo gèrent la directive X-Robots-Tag qui se déclare directement dans l'entête HTTP, ce qui le rend utilisable avec n'importe quel format de document. Voici quelques précisions sur cette fonctionnalité...
Dans : Actualité - Par Olivier Duffez, le 2 mai 2006
Apparement Googlebot arrive a analyser les codes Javascript contrairement à tout ce qu'on a pu entendre pour le moment, et il arrive meme à déceler les URL à l'intérieur de ces Javascript (il cherche à trouver les URL présentes dans le code et à les suivre)...
Dans : Indexation Google - Par Olivier Duffez, le 26 avril 2006
Google a mis en place un système appelé Crawl Caching Proxy
: voici quelques explications...
Dans : Actualité - Par Olivier Duffez, le 28 avril 2004
Le
référencement du Flash a toujours posé problème, car Google n'indexe que très mal ce type de fichier. On savait que Google pouvait trouver les liens dans les animations Flash, mais l'indexation se limitait aux recherches de liens. Ce type de lien est d'ailleurs compté en tant que
backlink et participe donc au
PageRank.
Google prouve aujourd'hui qu'il est capable d'indexer le texte présent dans les animations Flash.
Dans : Indexation Google - Par Olivier Duffez, le 2 octobre 2003
Depuis environ 6 mois, Google a davantage changé ses méthodes que par le passé. Nous allons tenter de faire le point sur les modifications apportées à son fonctionnement ou son algorithme, en commençant par les techniques d'indexation utilisées par GoogleBot, le robot de Google. Pour rendre ceci plus concret, je suis parti d'un exemple...
Dans : Indexation Google - Par Olivier Duffez, le 21 février 2003
GoogleBot est le nom du robot d'indexation de Google. Ce robot est programmé pour fonctionner sur des centaines de machines à la fois, avec des adresses IP différentes. Il faut dire qu'il a 3 milliards de documents à mettre à jour régulièrement, et des millions de nouveaux à découvrir...
Dans : Indexation Google - Par Olivier Duffez, le 22 novembre 2002
La vie d'une page sur le web est ponctuée en général de nombreuses visites, que ce soit de visiteurs (humains), de robots de moteurs de recherche voire de logiciel (aspirateurs de sites). Si la dernière catégorie n'intéresse pas vraiment le webmaster, il souhaite en général augmenter la fréquence des deux autres... Intéressons-nous aux visites des robots, par exemple celles de GoogleBot, le robot de Google.