Dans : - Par Olivier Duffez, le Jeudi 13 décembre 2007
Pour bloquer l'indexation de certaines pages spécifiques d'un site, il suffit d'utiliser la balise meta robots noindex. Mais comment faire avec des documents qui ne sont pas au format HTML (documents PDF, audio, Word, Excel, Powerpoint, … et pourquoi pas non plus des flux RSS/Atom) ? Google et Yahoo gèrent la directive X-Robots-Tag qui se déclare directement dans l'entête HTTP, ce qui le rend utilisable avec n'importe quel format de document. Voici quelques précisions sur cette fonctionnalité…
Dans : - Par Olivier Duffez, le Lundi 23 février 2004
Google a annoncé officiellement la semaine dernière qu'il indexait désormais 4,285,199,774 « pages web» . En réalité il ne s'agit pas que de pages HTML mais aussi de documents Word, PDF, Excel, PowerPoint, PostScript, bref : tous les formats reconnus par Google. Là où le chiffre est peut-être trompeur, c'est que ce nombre ne correspond peut-être pas au nombre de documents indexés par Google. En effet, vous avez sans doute déjà remarqué que pour certains résultats Google n'affiche que l'URL (aucun titre, ni description). Ceci correspond aux documents dont Google connait l'existence (l'adresse) seulement parce que d'autres pages ont fait un lien vers elles, et que le document existe bien, mais que Google n'a pas pu (ou voulu ?) indexer.