Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Google lit les CSS et JS, mais pour quoi faire exactement ?

Matt Cutts a indiqué dans une vidéo qu'il ne fallait pas bloquer l'accès à Googlebot aux fichiers CSS et Javascript (via le fichier robots.txt). Pourquoi donc ? Est-ce vraiment une bonne idée de suivre cette recommandation ? Voici quelques éléments de réflexion.

Edit : depuis 2012, date de publication de cet article, Google a bien progressé. Il sait interpréter les CSS et JS pour mieux comprendre le look des pages, et pour le référencement mobile.
Googlebot, le crawler de Google

Dans la vidéo affichée ci-dessous, Matt Cutts recommande de ne pas bloquer (via le fichier robots.txt) l'accès aux fichiers CSS (feuilles de styles) et JS (Javascript) à Google. En gros, il indique que Google est devenu plus fort pour les interpréter et qu'il vaut mieux lui laisser tout voir... "Googlebot is pretty smart" qu'il dit l'ami Matt !

Pour Javascript, on sait depuis quelque temps déjà que Google sait en effet de plus en plus interpréter le code Javascript. Mais justement ! Il y a des cas où l'on veut éviter à tout prix que Google aille trainer les pieds, car il s'agit de pages que l'on ne veut pas faire indexer (ni même crawler). Pour être certain que Google n'y aille pas, le plus efficace est de bloquer l'accès au code Javascript (via un Disallow dans le fichier robots.txt).

Pour CSS, à ma connaissance Matt Cutts n'avait pas encore dit de façon aussi explicite que Google cherchait à interpréter les CSS. S'il demande qu'on ne bloque pas l'accès aux fichiers CSS, est-ce pour mieux détecter des cas de triche ?

Donc en gros, il faut donner à Google un accès total à notre site. Autant lui donner les clés de la maison ! N'oubliez pas non plus de lui donner l'accès à votre base de données ;-)

N'hésitez pas à donner votre avis dans les commentaires.

La vidéo :

Cet article vous a-t-il plu ?

Cliquez pour voter !

25 commentaires

Pacha

Mais vous ne dites pas l'essentiel!
Comment bloquer l'accès à ces fichiers...

Perso l'accès au CSS l'enquiquinait plutôt pour pas qu'on puisse voir ma cuisine interne et comment je faisais ou ne pas me faucher tel ou tel style, thème, modif'

On a tout pour devenir de plus en plus parano! lol ah non \o/ (haut les mains! le fameux lol-up! )

Olivier Duffez

Il me semble que c'est indiqué : pour bloquer l'accès aux fichiers, on utilise le fichier robots.txt

Olivier (un autre)

Quelqu'un a t'il vérifié sur ses logs apache que gbot ne crawle pas des fichiers JS en nofollow ? Je miserais bien quelques cents sur le fait que nofollow ou pas, il y va gaiement (peut-être pas avec la désignation du bot officiel.... quoique).

Quoi qu'il en soit, du moment où ces fichiers ne sont pas bloqués par un htaccess (ce qui serait original !), ils sont accessibles à tout le monde, donc google y a accès quand il le veut !

Olivier Duffez

@ "l'autre Olivier" : tu parles de nofollow mais tu voulais sans doute dire disallow ?

Denis

C'est clairement en rapport avec la création de vignettes. J'ai pris, en voyant cette vidéo, de bloquer pour Googlebot l'accès aux fichiers Css et Javascript sur mes sites.

Artopage

Bonjour. Il ne s'agit pas de donner les "clés" du site dans la mesure où seule la partie publiée (même applicative) est scannée par Google.

L'accès aux CSS est évidemment nécessaire. Il permet de se faire une idée de ce qui est mis en évidence dans la page.

Concernant l'accès aux JS, je ne vois pas pourquoi lui demander de ne pas les regarder s'il s'estime capable de les comprendre. Avec HTML5 certains sites seront en fait des applications proches des clients lourds, ce qui implique des changements dans le travail des moteurs de recherches, et pour cela il faut bien les laisser travailler.

Arnaud Morvan

Une vision simple, au vu d'un de vos articles : https://www.webrankinfo.com/dossiers/r-et-d/google-moteur-semantique

Google chercherait-il également à utiliser et afficher la mise en forme dans ces résultats de SERP ? ou tout simplement à ficher les blackhateurs ?

Un beau débat pour donner ou pas les clés de la maison...

Fiber

Il me semblait que cela faisait des années que Google interprétait le CSS, pour éviter le contenu caché par des styles. Avant il y a avait des centaines de liens cachés dans les pages, en display none. Ca n'existe plus. Si c'est caché, cela ne doit pas être interprété et référencé.

Média Camp

C'est clair que Google a déjà accès à bien assez d'informations, sans encore qu'on ai besoin de lui laisser l'accès aux CSS et JS.

Si le site est bien conçu, il n'en n'a pas besoin, donc qu'il reste à la porte. Et puis comme on ne sait pas ce qu'ils veulent en faire et les conséquences que ça peut avoir, mieux vaut s'abstenir, même quand vous n'avez rien à vous reprocher.

immobilier internet

@Julien

Si ton code est caché avec en display none en dur il sera lu mais non visible dans la page en cache. Le mieux je pense est de cacher en css ou au démarrage de la page en javascript, cela sera pris en compte et dans le cache de google.

Après si cela à un impact sur le référencement, c'est probable mais pas certain.
Des tests à faire.

Rogers

Je n'ai jamais empêcher l'indexation des JS comme les CSS. Toutefois, je note encore une fois que GG nous en demande toujours plus.

GG a le droit de rester opaque (sur les pénalisations notamment ou aucune raison n'est donnée) mais nous on doit toujours lui en faire plus.

Sérieusement, on ne va pas tarder d'y venir à l'accès à la BD :p.

elric

Il a grossi Matt Cutts non ? :p

Bigbangbel

Pourquoi Google ne pourrait-il pas parcourir les CSS et JS alors que tout visiteur lambda le fait avec son navigateur ? Sans prendre partie pour GG, je ne vois pas où est le problème. Je n'ai peur, ni du gendarme, ni du douanier, ni de Google ;-)

D'accord avec prestarocket "pour voir les règles css qui permettent de cacher du contenu (display:none, hidden etc...)"

D'accord avec Rigal "Ne serait-ce pour afficher des Instant Previews correctes il vaut quand même mieux qu'il ait accés à toutes les ressources."

Par ailleurs, pourquoi Google aurait-il développé Chrome, si ce n'est pour les previews, pour que GGbot ne voie plus les sites comme Lynx, etc. ?

Olivier Duffez

Le problème du crawl du JS est que parfois on ne veut surtout pas que Google perde son temps à crawler des parties du site ou suive certains liens, car ça mène à des pages pas intéressantes. Ce n'est pas toujours possible ou efficace de régler ce problème en bloquant des rubriques par le robots.txt donc on bloque le javascript qui donne accès à ces rubriques.

chambre d'hotes Jolivet

Jusque là, je me demandais comment google ne voyait pas certains liens cachés par CSS, plus subtils que le display:none, mais avec cet article, je comprends mieux ! En cachant complètement à Google le CSS ou juste la partie à cacher, cela parait compliqué à déceler.
Finalement, cette demande de google va peut-être me faire agir dans le sens opposé...
Merci pour la réflexion !

Pour les boutons sociaux, chez moi ça passe bien sous chrome, firefox et ie7 !

Janolapin

@olivier: je ne sais pas exactement ce qui se passe, mais il semble que tes gadgets sociaux en haut de page soient perturbés.

Il est par exemple impossible d'ouvrir cette page dans IE9: tout bouge sans arrêt (JS perturbé..). Dans Firefox ça passe.

Meat-uobijd

Faire front à Google, c'est délicat. A l'heure actuelle, Google c'est 90% des parts de recherche en France, on est dans ces eaux là aussi en Europe.

Et puis Google, c'est des outils gratuits que d'autres font payer. C'est difficile de dire aux gens : Google c'est le mal, ne l'utilisez plus. La plupart te diront, oui Google c'est le mal, mais Google c'est 60% de mon C.A.

Qui serait prêt à faire une croix sur 60% de son C.A. ? Et quand bien même, cela ne représenterait que 20 ou 30%, cela reste énorme.

Après, les habitudes changent avec le temps, en 2000, Google ne faisait pas la loi sur le WEB francophone. En 2012, les réseaux sociaux sont arrivés, les habitudes de consommation ont modifié la façon d'être sur le WEB et de communiquer. Il faut s'adapter et faire avec. C'est un peu défaitiste, mais le WEB reste une jungle où la loi du plus fort est toujours présente.

rankmaster

** ... les gens ont le droit de fermer leur bouche et d’acquiescer ou de fermer leur bouche et d'acquiescer quand même... **

Je crois que tout le monde est d'accord là-dessus. Vu que Gogole ne changera pas d'un pouce là-dessus, le plus simple de lui faire front. La question c'est comment ? En aidant Bing.fr à gagner des parts de marcher ? Des idées ?

Meat-uobijd

Le CSS, pourquoi pas, mais le JS... tout le JS. Bientôt, les développeurs auront pour obligation de coder leur site en GTML (futur HTML de Google qui n'existe que dans mon esprit pour l'instant ;) ) sous peine de ne jamais apparaitre dans les résultats de Google.

Voilà ce que c'est d'avoir une position dominante sur un marché, on peut dicter SES propres lois, et les gens ont le droit de fermer leur bouche et d’acquiescer ou de fermer leur bouche et d'acquiescer quand même.

Nous avions déjà eu le cas avec les nouvelles conditions générales d'utilisation sur les comptes Google.

Cela ne va pas en s'arrangeant. Et tout ça parce que leur leur moteur n'est pas fichu d'être aussi pertinent que d'autres mais qu'il est numéro 1.

prestarocket

Hello,

Peut être est ce pour voir les règles css qui permettent de cacher du contenu (display:none, hidden etc...) ou encore pour vérifier que la css est optimisée.
++
@prestarocket

Antho

Il manque la vidéo sur l'article...
Sinon merci pour cet article.

Olivier Duffez

@Antho : Erreur corrigée !

Julien

Olivier, sais tu si il y a eu des tests sur le référencement de pages avec un système d'onglet par Javascript. Vu que certaines parties sont cachés à l'ouverture de la page, est-ce recommandé?

Olivier Duffez

Je l'utilise sur plusieurs sites sans problème. Je ne sais pas s'il existe des cas où cette technique pose problème.

Les commentaires sont fermés