Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Googlebot remplit les formulaires !

Alors que jusqu'à présent les pages accessibles uniquement via un formulaire font partie de ce qu'on appelle le web invisible (des moteurs de recherche), Google a commencé à expérimenter le crawl des formulaires. C'est à la fois une bonne et une mauvaise nouvelle... explications.

Jayant Madhavan et Alon Halevy, de l'équipe Crawl et Indexation chez Google, viennent d'expliquer sur leur blog que Google venait de commencer à tester le crawl (et l'indexation) des pages accessibles par formulaire. Rappelons que pour l'instant Google ne fait que suivre les liens classiques a href pour découvrir les pages à indexer (je mets de côté les pages soumises par un fichier Google Sitemap).

Précisons que cette expérimentation ne concerne que les sites de haute qualité. On se demande bien ce qui se cache derrière cette appellation, cela signifie en tout cas que tous les formulaires ne seront pas forcément testés par Googlebot. Concrètement, voici ce qu'il faut retenir :

  • Google ne crawle que les formulaires de type GET (on met donc de côté la méthode POST), c'est-à-dire ceux qui font apparaître les paramètres dans l'URL de la page de soumission du formulaire.
  • Les différentes valeurs des listes déroulantes ou des cases à cocher seront testées (ce qui fait parfois un paquet de combinaisons)
  • Pour les champs texte, Google va tester de les remplir avec des mots-clés qui lui semblent pertinents par rapport au site ! Je serais curieux de savoir comment ils sont sélectionnés, en tout cas ça peut être intéressant d'en avoir la liste pour un site donné.
  • Une fois la page (de résultats) crawlée, Google l'analyse pour vérifier si elle ne correspond pas déjà à une page qui serait déjà dans l'index (ce qui causerait donc des problèmes de contenus dupliqués). Une vérification de la validité et de l'intérêt est également effectuée avant d'indexer la page.

Google précise que ceci ne changera rien au PageRank et (quasiment rien) au positionnement des pages actuelles d'un site. En clair, Google ne considère toujours pas (et c'est logique) que les pages accessibles par formulaires reçoivent de la popularité comme c'est le cas quand il s'agit de liens.

L'indexation des formulaires peut être rangée dans la famille des améliorations des moteurs de recherche, tout comme celle des animations Flash ou des scripts JavaScript. Faut-il pour autant se réjouir ?

  • certains formulaires mènent à des pages que le webmaster n'a pas prévu de faire indexer, car elles mènent à des contenus déjà accessibles sur d'autres pages indexées. Dans ce cas, il va falloir désormais indiquer aux robots que l'on ne souhaite pas qu'ils indexent ces pages (c'est ce que je fais pour mes outils qui reposent sur un formulaire en GET, bien pratique pour faire un lien vers une page de résultats). On peut aussi bloquer le crawl en utilisant le fichier robots.txt (ce qui bloquera forcément l'indexation).
  • certains formulaires mènent à des pages ne présentant pas forcément un contenu en tant que résultat. C'est le cas des formulaires de connexion à une zone membre, ou des achats sur un site de ecommerce ! Là non plus on ne veut évidemment pas de robots... En théorie Google a prévu ces cas mais on ne sait jamais maintenant.

Comment vont réagir les webmasters ? Que va-t-il se passer avec toutes ces pages indexées à l'insu du plein gré des webmasters :-) ? Les champs hidden seront-ils exploités (avec un risque accru de spam) ? Les autres moteurs vont-ils suivre la voie de Google ? On discute de l'indexation des formulaires par Google dans le forum...

Cet article vous a-t-il plu ?

Note : 2.0 (1 vote)
Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

4 commentaires

Algerie

mais cela peut etre une bonne ou mauvaise nouvelle, concernant les petits sites qui ne rewrite pas leur pages accessible via un formulaire ou qu'il ne les optimise pas...

Répondre
CM

« certains formulaires mènent à des pages ne présentant pas forcément un contenu en tant que résultat. C'est le cas des formulaires de connexion à une zone membre, ou des achats sur un site de ecommerce ! Là non plus on ne veut évidemment pas de robots... »

Attention, l'amélioration de Google ne concerne que les formulaires de type « GET » comme mentionné plus haut dans l'article. Or, les formulaires de connexion ou d'achat sont le plus souvent de type «POST» et s'ils ne le sont pas, ils devraient l'être.

Répondre
HawkEye

Quid des formulaires Google CSE et compagnie ?

On s'est emm*... à empêcher l'indexation des résultats de recherche (cf. guidelines Google): pourquoi se mettre à remplir les formulaires ???

Pas logique comme décision.

Répondre
fredp

Google a effectivement référencé plusieurs "post" de notre formulaire ce qui nous a surpris. Nous n avions pas prévu des balises titre pour certaines situations. A noter qu ils ont laissé "toutes marques" "tous modèles" mais qu ils ont joué avec les chmaps "type" et "budget" ce qui en fait n a pas beaucoup de sens pour nous ici.

Répondre