Cet article fait partie des archives de WebRankInfo : certes, il est ancien, mais complet et détaillé pour son époque. Si vous cherchez d'autres informations, faites une recherche sur le site ou participez au forum. Contactez-moi si besoin.
Jayant Madhavan et Alon Halevy, de l'équipe Crawl et Indexation chez Google, viennent d'expliquer sur leur blog que Google venait de commencer à tester le crawl (et l'indexation) des pages accessibles par formulaire. Rappelons que pour l'instant Google ne fait que suivre les liens classiques a href
pour découvrir les pages à indexer (je mets de côté les pages soumises par un fichier Google Sitemap).
Précisons que cette expérimentation ne concerne que les sites de haute qualité
. On se demande bien ce qui se cache derrière cette appellation, cela signifie en tout cas que tous les formulaires ne seront pas forcément testés par Googlebot. Concrètement, voici ce qu'il faut retenir :
- Google ne crawle que les formulaires de type GET (on met donc de côté la méthode POST), c'est-à-dire ceux qui font apparaître les paramètres dans l'URL de la page de soumission du formulaire.
- Les différentes valeurs des listes déroulantes ou des cases à cocher seront testées (ce qui fait parfois un paquet de combinaisons)
- Pour les champs texte, Google va tester de les remplir avec des mots-clés qui lui semblent pertinents par rapport au site ! Je serais curieux de savoir comment ils sont sélectionnés, en tout cas ça peut être intéressant d'en avoir la liste pour un site donné.
- Une fois la page (de résultats) crawlée, Google l'analyse pour vérifier si elle ne correspond pas déjà à une page qui serait déjà dans l'index (ce qui causerait donc des problèmes de contenus dupliqués). Une vérification de la
validité
et de l'intérêt
est également effectuée avant d'indexer la page.
Google précise que ceci ne changera rien au PageRank et (quasiment rien) au positionnement des pages actuelles d'un site. En clair, Google ne considère toujours pas (et c'est logique) que les pages accessibles par formulaires reçoivent de la popularité comme c'est le cas quand il s'agit de liens.
L'indexation des formulaires peut être rangée dans la famille des améliorations des moteurs de recherche, tout comme celle des animations Flash ou des scripts JavaScript. Faut-il pour autant se réjouir ?
- certains formulaires mènent à des pages que le webmaster n'a pas prévu de faire indexer, car elles mènent à des contenus déjà accessibles sur d'autres pages indexées. Dans ce cas, il va falloir désormais indiquer aux robots que l'on ne souhaite pas qu'ils indexent ces pages (c'est ce que je fais pour mes outils qui reposent sur un formulaire en GET, bien pratique pour faire un lien vers une page de résultats). On peut aussi bloquer le crawl en utilisant le fichier robots.txt (ce qui bloquera forcément l'indexation).
- certains formulaires mènent à des pages ne présentant pas forcément un contenu en tant que résultat. C'est le cas des formulaires de connexion à une zone membre, ou des achats sur un site de ecommerce ! Là non plus on ne veut évidemment pas de robots... En théorie Google a prévu ces cas mais on ne sait jamais maintenant.
Comment vont réagir les webmasters ? Que va-t-il se passer avec toutes ces pages indexées à l'insu du plein gré
des webmasters :-) ? Les champs hidden seront-ils exploités (avec un risque accru de spam) ? Les autres moteurs vont-ils suivre la voie de Google ? On discute de l'indexation des formulaires par Google dans le forum...
mais cela peut etre une bonne ou mauvaise nouvelle, concernant les petits sites qui ne rewrite pas leur pages accessible via un formulaire ou qu'il ne les optimise pas...
« certains formulaires mènent à des pages ne présentant pas forcément un contenu en tant que résultat. C'est le cas des formulaires de connexion à une zone membre, ou des achats sur un site de ecommerce ! Là non plus on ne veut évidemment pas de robots... »
Attention, l'amélioration de Google ne concerne que les formulaires de type « GET » comme mentionné plus haut dans l'article. Or, les formulaires de connexion ou d'achat sont le plus souvent de type «POST» et s'ils ne le sont pas, ils devraient l'être.
Quid des formulaires Google CSE et compagnie ?
On s'est emm*... à empêcher l'indexation des résultats de recherche (cf. guidelines Google): pourquoi se mettre à remplir les formulaires ???
Pas logique comme décision.
Google a effectivement référencé plusieurs "post" de notre formulaire ce qui nous a surpris. Nous n avions pas prévu des balises titre pour certaines situations. A noter qu ils ont laissé "toutes marques" "tous modèles" mais qu ils ont joué avec les chmaps "type" et "budget" ce qui en fait n a pas beaucoup de sens pour nous ici.