Comment gérer simplement les sitemaps de plusieurs sites au même endroit
Par Olivier Duffez, jeudi 28 février 2008
Si vous gérez plusieurs sites, vous avez peut-être rencontré le cas où ça aurait été plus simple pour vous de centraliser au même endroit (sur un même site) tous les sitemaps de ces différents sites. C'était possible depuis octobre 2007 mais un peu compliqué, aujourd'hui c'est facilité par le biais du fichier robots.txt : explications...
On va reprendre ça calmement et dans l'ordre :
- Google (et les autres moteurs) permet au webmaster de lister les pages de son site qu'il veut voir crawlées et indexées : il suffit de créer un fichier sitemap
- Ce fichier sitemap est un fichier XML ou texte stocké sur le site concerné
- Le webmaster doit prouver à Google qu'il est bien l'éditeur du site : pour cela il doit uploader un fichier spécifique (ou mettre une balise meta dans sa page d'accueil). On appelle ça la phase de vérification.
- Le webmaster doit ensuite indiquer à Google où se trouve ce fichier sitemap : pour cela il utilise son compte Google Webmaster Tools, ou plus simplement depuis avril 2007 en indiquant l'adresse du fichier sitemap dans le fichier robots.txt
- S'il a plusieurs sites à gérer (ou plusieurs sous-domaines du même site), il peut répéter le processus ci-dessus autant de fois que nécessaire, mais ça peut devenir assez laborieux.
- Depuis octobre 2007 Google permet au webmaster de mettre tous ses fichiers sitemaps (de différents sites) au même endroit (sur un seul serveur) à condition de passer la phase de vérification de chaque site (ou sous-domaine)
- A partir de maintenant il n'est plus obligatoire de procéder à ces différentes vérifications, il suffit d'indiquer dans le fichier robots.txt l'adresse du sitemap, même s'il est hébergé sur un autre site.
En conclusion si vous gérez les sites www.site1.com et www.site2.com et que vous souhaitez gérer les sitemaps de ces 2 sites au même endroit (sur www.site1.com) :
- avant il fallait prouver que vous êtes le webmaster des 2 sites en procédant à la vérification de
www.site1.comet dewww.site2.com - maintenant il suffit pour le site secondaire
www.site2.comde mettre une ligne dans son fichierrobots.txtqui indique que le fichier sitemap dewww.site2.comse trouve quelquepart surwww.site1.com
Pour indiquer ça dans le fichier http://www.site2.com/robots.txt il faut ajouter une ligne du style :
Sitemap: http://www.site1.com/sitemap-www-site2.xml
Si mes explications ne sont pas claires, lisez celles de Google qui le seront peut-être plus ! Ou alors venez en discuter dans le forum : Gérer plusieurs sitemaps de plusieurs sites via le robots.txt

Ajoutez ce blog à vos favoris Technorati !




Commentaires
1. Le jeudi 28 février 2008 à 13:30, par Nico
2. Le jeudi 28 février 2008 à 14:06, par Olivier Duffez
Ajouter un commentaire
Les commentaires pour ce billet sont fermés.
A lire aussi dans l'actualité WebRankInfo
Google vient de mettre à disposition la version 1.3 du Google Sitemap Generator, qui dispose essentiellement d'un meilleur support du codage des caractères.
Fort logiquement on s'intéresse surtout au référencement des documents web classiques, à savoir les pages HTML. Mais les moteurs de recherche évoluent pour s'adapter aux habitudes des internautes. Dans cette logique, Google a lancé sa recherche universelle, qui mélange le texte, les images, les vidéos, les cartes géographiques dans les résultats. Il est donc temps de regrouper les discussions sur tous ces sujets dans un forum sur le référencement "multimédia"...
Yahoo et Live Search viennent d'annoncer qu'ils rejoignent l'initiative de Google lancée l'année dernière et vont supporter le même standard de fichier sitemaps, qui permet aux webmasters de faciliter l'indexation des pages de leurs sites.
Maintenant que les moteurs se sont accordés pour un protocole commun de fichier SiteMap, ils simplifient la soumission de fichier sitemap en proposant d'utiliser le fichier robots.txt (qui est pourtant historiquement utilisé pour indiquer les parties que l'on ne souhaite pas indexer...).
Et de 5 ! (ou plutôt 4...) On a appris via ExaleadGuy il y a quelques jours dans le forum Exalead sur WebRankInfo qu'Exalead supporte désormais le protocole Sitemaps initié par Google, rejoint par Yahoo et Ask (et bientôt MSN/Live mais on attend toujours).
Peu après le regroupement de Yahoo et Live avec Google autour du protocole Sitemaps, Google propose une version spéciale de fichier Sitemap pour Google News.
L'équipe de Google Sitemaps vient de mettre à jour le site en améliorant l'interface et en ajoutant des nouvelles fonctionnalités, notamment un diagnostic pour traiter les cas de pénalités pour spamdexing...
Scoop : Orange vient de lancer un service orienté Web 2.0 de partage de favoris en ligne, baptisé simplement Orange Favoris.
A lire dans le forum WebRankInfo