Vous êtes ici : Dossiers référencement > Indexation Google

Membre WebRankInfo ?

S'inscrire Aide

Indexation Google

Cette rubrique regroupe des articles d’actualité, des conseils et des tutoriels pour aider à faire indexer un site et donc optimiser son référencement naturel (SEO).

Vous pouvez vous abonner par email (newsletter) ou par RSS et me suivre sur Twitter, Facebook ou Google+.

Si vous appréciez cette rubrique, dites-le en cliquant sur ces boutons :

Google indexe mieux le Javascript (+AJAX) et les formulaires en POST

Crawl et indexation Google du Javascript

Dans : Indexation Google - Par Olivier Duffez, le 4 novembre 2011

Si vous pensiez être tranquille avec vos pages en AJAX et vos formulaires de type POST (au lieu de GET), sachez que c'est fini ! Googlebot, le robot de Google, sait désormais bien interpréter le Javascript (ainsi qu'AJAX) et les pages résultant d'un envoi de données via la méthode POST d'un formulaire. Pour ceux qui avaient développé un site tout en Javascript ou AJAX, ça peut par contre être une bonne nouvelle. Explications...

 

Les commentaires Facebook désormais indexables par Google

Facebook Comments

Dans : Indexation Google - Par Olivier Duffez, le 2 novembre 2011

Certains sites utilisent le module de commentaires de Facebook, permettant aux internautes de laisser des commentaires sur un site web en étant connecté à leur compte Facebook. Jusqu'alors invisibles de Googlebot, ces commentaires peuvent désormais être indexés.

 

Comment définir rel=canonical dans l'entête HTTP

Dans : Indexation Google - Par Olivier Duffez, le 20 juin 2011

On connaissait la balise d'URL canonique, voici désormais sa version paramétrable directement dans l'entête HTTP. Explications...

 

schema.org : le nouveau standard de données structurées (microdata)

Dans : Indexation Google - Par Olivier Duffez, le 3 juin 2011

Pour mieux comprendre la sémantique des données présentes dans les pages web, les moteurs ont besoin que les données structurées soient formatées avec un standard connu. Jusqu'à présent, plusieurs standards cohabitaient (microformats, RDFa, microdata, etc.). Les 3 moteurs de recherche Google, Bing et Yahoo ont décidé de se regrouper pour créer un nouveau standard commun intitulé schema.org, à la manière du standard sitemaps.org. Explications...

 

Google officialise son infrastructure Caffeine

Dans : Indexation Google - Par Olivier Duffez, le 9 juin 2010

Connue sous le nom de code Caffeine, la nouvelle infrastructure technique de Google est officiellement en place. Comme je l'ai déjà répété à plusieurs reprises, il s'agit surtout de changements internes chez Google qui concernent majoritairement le crawl et l'indexation (la fraîcheur de l'index serait améliorée de 50%). C'est donc seulement de façon indirecte que nous sommes concernés, pas en tant que changement d'algorithme (comme récemment avec May Day).

 

Pubsubhubbub : aide à l'indexation temps réel

Dans : Indexation Google - Par Olivier Duffez, le 5 mars 2010

Pubsubhubbub est un protocole  open source destiné à faciliter les abonnements aux flux RSS/Atom, permettant aux abonnés d'être notifiés en quasi temps réel de l'arrivée de nouveaux éléments, tout en réduisant la charge des éditeurs hébergeant ces flux. Développé par Brad Fitzpatrick, Brett Slatkin et Mihai Parparita, 3 ingénieurs de Google, Pubsubhubbub est déployé progressivement sur un grand nombre de produits Google. WordPress le propose via un plugin, et vous, allez-vous l'adopter ? Cet article vous explique tout !

 

Sites blacklistés par Google

Dans : Indexation Google - Par Olivier Duffez, le 6 septembre 2008

Cet article présente la notion de blacklistage (blacklisting) de Google et indique ce qu'il faut faire si votre site est ainsi banni de l'index Google.

 

Description du cache de Google

Googlebot

Dans : Indexation Google - Par Olivier Duffez, le 6 septembre 2008

Pour indexer des millions de pages tous les jours, Google utilise une "armée" de robots d'indexation, appelés GoogleBot (lire l'étude sur GoogleBot pour en savoir plus). A chaque fois qu'un de ces robots visite une page, il la récupère et la stocke sur un des serveurs de Google. Cette version du document est appelée la version cache. On comprend vite qu'avec des milliards de documents Google ait besoin de plus de 10 000 serveurs (et beaucoup de disques durs...).

 

Google Data Centers

Dans : Indexation Google - Par Olivier Duffez, le 6 septembre 2008

Les milliers de serveurs de Google sont répartis sur des centres de données, appelés Data Centers. Voici la liste des premiers data centers de Google...

 

Etude de Googlebot : le FreshBot et le DeepBot

Dans : Indexation Google - Par Olivier Duffez, le 5 septembre 2008

Petite étude réalisée en 2002 et 2003 sur les différentes formes de Googlebot, le robot de crawl de Google.

 

Présentation du système d'indexation de Google

Dans : Indexation Google - Par Olivier Duffez, le 5 septembre 2008

Cet article présente le système de crawl (récupération des documents web) et d'indexation (analyse des documents web) par Google.

 

Les mécanismes du crawl de Google

Dans : Indexation Google - Par Olivier Duffez, le 20 août 2008

Depuis l'été 2007, Google a considérablement amélioré son système de crawl : non seulement le moteur semble arriver à indexer les très nombreuses pages créées chaque jour sur le web, mais il n'est plus rare de voir des pages indexées en quelques minutes à peine ! Voici quelques explications issues d'un brevet de Google qui décrit les différents types de crawlers et leurs rôles respectifs.

 

Googlebot remplit les formulaires !

Dans : Indexation Google - Par Olivier Duffez, le 14 avril 2008

Alors que jusqu'à présent les pages accessibles uniquement via un formulaire font partie de ce qu'on appelle le web invisible (des moteurs de recherche), Google a commencé à expérimenter le crawl des formulaires. C'est à la fois une bonne et une mauvaise nouvelle... explications.

 

Interdire l'indexation avec l'entête HTTP X-Robots-Tag

Dans : Indexation Google - Par Olivier Duffez, le 13 décembre 2007

Pour bloquer l'indexation de certaines pages spécifiques d'un site, il suffit d'utiliser la balise meta robots noindex. Mais comment faire avec des documents qui ne sont pas au format HTML (documents PDF, audio, Word, Excel, Powerpoint, ... et pourquoi pas non plus des flux RSS/Atom) ? Google et Yahoo gèrent la directive X-Robots-Tag qui se déclare directement dans l'entête HTTP, ce qui le rend utilisable avec n'importe quel format de document. Voici quelques précisions sur cette fonctionnalité...

 

Googlebot analyse certains codes JavaScript

Dans : Actualité - Par Olivier Duffez, le 2 mai 2006

Apparement Googlebot arrive a analyser les codes Javascript contrairement à tout ce qu'on a pu entendre pour le moment, et il arrive meme à déceler les URL à l'intérieur de ces Javascript (il cherche à trouver les URL présentes dans le code et à les suivre)...

 

Le Crawl Caching Proxy de Google

Dans : Indexation Google - Par Olivier Duffez, le 26 avril 2006

Google a mis en place un système appelé Crawl Caching Proxy : voici quelques explications...

 

Google indexe le Flash

Dans : Actualité - Par Olivier Duffez, le 28 avril 2004

Le référencement du Flash a toujours posé problème, car Google n'indexe que très mal ce type de fichier. On savait que Google pouvait trouver les liens dans les animations Flash, mais l'indexation se limitait aux recherches de liens. Ce type de lien est d'ailleurs compté en tant que backlink et participe donc au PageRank.
Google prouve aujourd'hui qu'il est capable d'indexer le texte présent dans les animations Flash.
 

Googlebot a changé...

Dans : Indexation Google - Par Olivier Duffez, le 2 octobre 2003

Depuis environ 6 mois, Google a davantage changé ses méthodes que par le passé. Nous allons tenter de faire le point sur les modifications apportées à son fonctionnement ou son algorithme, en commençant par les techniques d'indexation utilisées par GoogleBot, le robot de Google. Pour rendre ceci plus concret, je suis parti d'un exemple...

 

Googlebot expliqué en détails

Dans : Indexation Google - Par Olivier Duffez, le 21 février 2003

GoogleBot est le nom du robot d'indexation de Google. Ce robot est programmé pour fonctionner sur des centaines de machines à la fois, avec des adresses IP différentes. Il faut dire qu'il a 3 milliards de documents à mettre à jour régulièrement, et des millions de nouveaux à découvrir...

 

Fresh Crawl, Deep Crawl, Google Dance...

Dans : Indexation Google - Par Olivier Duffez, le 22 novembre 2002

La vie d'une page sur le web est ponctuée en général de nombreuses visites, que ce soit de visiteurs (humains), de robots de moteurs de recherche voire de logiciel (aspirateurs de sites). Si la dernière catégorie n'intéresse pas vraiment le webmaster, il souhaite en général augmenter la fréquence des deux autres... Intéressons-nous aux visites des robots, par exemple celles de GoogleBot, le robot de Google.

 

Formation référencement et webmarketing

Venez chez Ranking Metrics vous former au référencement, à Google Analytics et aux réseaux sociaux ! Plus de 4000 entreprises sont déjà venues (financement possible par OPCA, DIF...).

Préparés et animés par Olivier Duffez (WebRankInfo) et Fabien Faceries (AgentWebRanking), 2 professionnels reconnus dans le domaine, nos modules sur le référencement naturel sont très complets tout en laissant une grande place à l'interactivité pour répondre à toutes les questions des participants.

Pour connaître le plan détaillé de chaque module, le prix, les dates et les lieux, consultez le site de Ranking Metrics (organisme de formation agréé).

WebRankInfo sur Twitter

Suivez-moi sur Twitter !
WebRankInfo Twitter

Hébergement web

Hebergement web mutualise, dedie

Pour un bon référencement, il faut un bon hébergeur. Testez Sivit, l'hébergeur choisi par Olivier Duffez pour son site WebRankInfo. Vous bénéficiez d'une garantie 30 jours satisfait ou remboursé.

A partir de 1,90 EUR HT/mois.