Indexation Google
Dans les dossiers :
Dans : - Par Madrileño, le Mardi 17 février 2009
Google vient de créer une page qui détaille comment augmenter l'audience d'un site pour avoir plus d'utilisateurs, en indexant tous types de documents : pages web, entreprises dans Google Maps, medias, vidéos, livres, etc.
Dans : - Par Olivier Duffez, le Vendredi 5 décembre 2008
Jusqu'à présent, Google permettait au webmaster de choisir entre 2 niveaux de vitesse de crawl (parfois un 3ème niveau était accessible). L'objectif est de demander au robot Googlebot de venir plus ou moins souvent sur le site, en fonction de la charge du serveur. Google vient d'annoncer que le réglage de la vitesse d'exploration est désormais plus fin.
Dans : - Par Olivier Duffez, le Samedi 18 octobre 2008
Google précise dans son blog Webmaster Tools que son initiative First Click Free, au début réservée à l'indexation dans Google News, est désormais étendue à la recherche (web) classique. Qu'est-ce donc que ce First Click Free ? Est-ce une opportunité pour les éditeurs de site ou plutôt pour Google ? Voici quelques pistes de réflexion…
Dans : - Par Olivier Duffez, le Samedi 6 septembre 2008
Pour indexer des millions de pages tous les jours, Google utilise une « armée » de robots d'indexation, appelés GoogleBot (lire l'étude sur GoogleBot pour en savoir plus). A chaque fois qu'un de ces robots visite une page, il la récupère et la stocke sur un des serveurs de Google. Cette version du document est appelée la version cache. On comprend vite qu'avec des milliards de documents Google ait besoin de plus de 10 000 serveurs (et beaucoup de disques durs…).
Dans : - Par Olivier Duffez, le Vendredi 5 septembre 2008
Cet article présente le système de crawl (récupération des documents web) et d'indexation (analyse des documents web) par Google.
Dans : - Par Olivier Duffez, le Mercredi 20 août 2008
Depuis l'été 2007, Google a considérablement amélioré son système de crawl : non seulement le moteur semble arriver à indexer les très nombreuses pages créées chaque jour sur le web, mais il n'est plus rare de voir des pages indexées en quelques minutes à peine ! Voici quelques explications issues d'un brevet de Google qui décrit les différents types de crawlers et leurs rôles respectifs.
Dans : - Par Olivier Duffez, le Vendredi 25 juillet 2008
1 trillion, c'est-à-dire mille milliards (1.000.000.000.000) : voilà le nombre de pages web distinctes que Google a répertorié ! Jesse Alpert et Nissan Hajaj (2 ingénieurs de Google de l'équipe en charge de l'infrastructure de la recherche) donnent quelques chiffres qui donnent le tournis…
Dans : - Par Olivier Duffez, le Mardi 22 juillet 2008
Que ce soit pour vos propres besoins ou pour de l'analyse concurrentielle, il peut s'avérer utile de connaître la liste des sous-domaines d'un site. Comme il n'existe pas de commande Google pour ça, j'ai fait un outil de recherche de sous-domaines…
Dans : - Par Olivier Duffez, le Jeudi 17 juillet 2008
Amit Singhal vient de vulgariser sur le blog officiel de Google les principales technologies utilisées par le leader de la recherche sur Internet. Pour résumer, il les a classées en 3 grandes catégories représentant les défis auxquels tout moteur de recherche est confronté : comprendre de quoi parlent les pages web, comprendre les requêtes tapées par les internautes, comprendre les intentions des internautes eux-mêmes.
Dans : - Par Olivier Duffez, le Lundi 14 avril 2008
Alors que jusqu'à présent les pages accessibles uniquement via un formulaire font partie de ce qu'on appelle le web invisible (des moteurs de recherche), Google a commencé à expérimenter le crawl des formulaires. C'est à la fois une bonne et une mauvaise nouvelle… explications.
Dans : - Par Olivier Duffez, le Vendredi 15 février 2008
Je viens de mettre en ligne un petit outil sur WebRankInfo qui permet de vérifier l'indexation d'un site dans Google : il indique le nombre de pages que Google a récemment indexées. Il permet aussi de déterminer l'âge d'un site, en tout cas la date depuis laquelle Google le connait. Ca peut être intéressant pour une analyse du référencement car l'ancienneté d'un site est un facteur important…
Dans : - Par Olivier Duffez, le Mercredi 26 avril 2006
Google a mis en place un système appelé Crawl Caching Proxy
: voici quelques explications…
Dans : - Par Olivier Duffez, le Lundi 21 novembre 2005
Google Base est donc officiellement sorti la semaine dernière : comment en profiter ? Certains pensent déjà à importer tout leur blog dans Google Base : réflexions.
Dans : - Par Olivier Duffez, le Vendredi 3 juin 2005
Depuis Juin 2005, Google met à disposition des webmasters un outil appelé SiteMaps. Il s'agit d'un moyen pour le webmaster de décrire la liste des pages de son site qui doivent être indexées par Google. L'idée est de faciliter la tâche aux robots d'indexation de Google afin qu'ils indexent plus rapidement et efficacement les pages de votre site. Web Rank Info vous fournit un guide pratique complet (en français bien entendu) pour vous aider à utiliser Google SiteMaps sur votre site.
Lectures recommandées sur ce thème :
- Déterminer l'ancienneté d'un site
Cet outil vous permet de connaître une estimation de l'ancienneté d'un site : il fournit la date à laquelle Google l'a indexé la première fois (et la même chose pour archive.org).
- Lister les sous-domaines
Cet outil vous permet de trouver la liste des sous-domaines (indexés) d'un site.