Google Sitemaps : mangez-en ! (étude de Google)

WRInaute passionné
Bonjour à toutes et tous,

je viens de tomber sur un article intéressant qui parle d'une étude réalisée par Google sur les Sitemaps.

Vous y verrez, notamment, que grâce aux fichiers sitemaps, l'indexation des sites est plus rapide et plus complète / poussée.


Extrait 1 :
Pour un site de type "archive" le crawl par Découverte est 'efficace' à 63% et celui par Sitemaps à 99%

Extrait 2 :
Nous étudions lequel des deux systèmes de crawl, Sitemaps ou Découverte, voie les URLs en premier. [...] D'après les statistiques les plus récentes, 78% de ces URLs ont d'abord été trouvé via le Sitemaps contre 22% par la Découverte.

Conclusion personnelle : les Google Sitemaps c'est bon pour la santé (de vos sites) : mangez-en !




Il semble que le fichier PDF indiqué en bas de la page soit maintenant inaccessible.
 
WRInaute passionné
LE PDF est dispo ici : www2009.org/proceedings/pdf/p991.pdf

Merci SpeedAirMan, j'avais pas vu, j'ai mis à jour mon post avec le nouveau lien.
 
WRInaute impliqué
Je trouve étrange que Google publie une étude sur son fonctionnement interne.
Pourquoi ferait-ils une étude sur un fonctionnement dont ils doivent connaitre absolument tout.
Si cela provient de Google, le mot qui aurait du être employé est "rapport" et non étude.
Google n'a pas besoin de s'étudier. :roll:
 
WRInaute impliqué
Mais faut-il faire un sitemap qui recense l'intégralité des pages de nos sites ou simplement y mettre les pages principales ?
 
WRInaute occasionnel
Benoit1 a dit:
Salut, il faut y mettre l'intégralité des pages.

++


Euh... à quoi ça sert de mettre une page que tu veux pas voir indexée ou référencée?


Je pense plutôt qu'il faut y mettre ce que tu veux que Google voit et non pas tout ce que tu as dans les mains :wink:
 
WRInaute passionné
Bien évidemment tu y met ce que tu veux, mais la question semble plutôt dirigée vers l'indexation globale du site, non ? ;)
 
WRInaute passionné
Je les utilisent en dynamique seulement pour toutes les nouvelles pages qui peuvent être créées sur mon site. Le reste des pages doivent normalement prisent en compte par le crawl des bots si la structure du site est correcte.
 
WRInaute passionné
WebRankInfo a dit:
à quoi ça sert de lister des pages déjà connues et indexées par Google ?

Quand on ajoute une page à une sitemap, elle n'est, par essence, pas connue de GG je crois. 8)

Doit-on les enlever de la sitemap au fur et à mesure de leur indexation ? :mrgreen:
 
WRInaute occasionnel
e-kiwi a dit:
de mon avis, si tu fais un sitemap, c'est pour y mettre l'intégralité des pages

Intérêt de mettre par exemple ta page mentions légales ou signaler un lien mort...

Et comme dit Olivier Duffez une page qui est déjà indexée et référencée ya pas vraiment d'intérêt de la mettre sauf si tu as changé ton contenu et que tu veux signaler au robot ce changement (en supposant que la page était pas présente avant).
 
WRInaute discret
Une info de ce rapport qui m'a intéressé...

Un des sites étudié est Pubmedcentral.nih.gov. On dit que 1.7M d'adresses sont mentionnées par les sitemaps, pour un total de 3M d'URL découvertes (crawler+sitemaps). Parmi tout cela, 8% de URL donnent des erreurs, mauvais certificat ou 404, dont seulement 100 en provenance des sitemaps.

On ne peut évidemment pas extrapoler pour le web dans son ensemble, mais si les crawlers de Google passent 8% de leur temps à essayer d'atteindre des pages en erreur, ça leur coûte 8% de l'infrastructure de crawl, donc un paquet de pognon.

Je peux comprendre que GG attache plus d'importance aux serveurs qui renvoient bien le code 404 pour une page dans cet état, plutôt qu'un redirect ou même un 200 OK (et servir une page d'erreur tout de même). Ne pas rire, j'en ai vu une série, sur des serveurs Microsoft mal configurés.
 
Discussions similaires
Haut