Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant en référencement

Intelligence artificielle : Google résume des contenus pour ses Featured Snippets

Pour améliorer les Featured Snippets (bloc avant le 1er résultat naturel), Google utilise l’intelligence artificielle pour résumer des contenus trouvés sur le web… Heureusement, la source d’information est encore indiquée ! Détails…

L’avez-vous remarqué ? Google devient de plus en plus un service qui fournit une réponse, plutôt que des liens vers des pages web qui pourraient répondre à la demande de l’internaute. A ce sujet, prévoyez d’aller consulter mon dossier sur les SERP de Google, c’est assez impressionnant.

Dans cette optique, il y a de plus en plus de cas où une réponse concise est apportée au-dessus des résultats naturels, sous forme de texte et parfois d’une image. On appelle ça le Featured Snippet ou le résultat au rang zéro (Google l’a traduit « extrait optimisé » en français).

Généralement, il s’agit d’une réponse succincte à une question directe et précise, comme une définition ou des questions du type « comment », « quel est », etc., mais parfois c’est plus complexe.

Featured Snippets Intelligence Artificielle

Google a recours à des algorithmes d’intelligence artificielle pour rédiger les Featured Snippets en haut de ses résultats de recherches

On apprend par le magazine Wired que Google a mis en place (sur résultats ordinateur, pas encore mobile) une amélioration de ces Featured Snippets, utilisant des techniques d’IA (Intelligence Artificielle). En gros, au lieu d’afficher dans le snippet un extrait exact d’un contenu trouvé sur le web, l’algorithme est capable de choisir des bouts pour former la réponse qui sera affichée en « position zéro ».

Avant de détailler la méthode, je vous ai choisi un exemple : la requête « quels sont les plus beaux chateaux de la loire » (tapée telle quelle avec l’aide de Google Suggest). Voici le haut des résultats :

Featured Snippet IA Google

Le texte affiché pour l’extrait optimisé (Featured Snippet) est généré automatiquement par Google

Vous remarquez que :

  • ce « résultat » est extrêmement visible, tout en haut de page
  • la réponse est fournie sous forme de liste, avec un lien pour avoir la liste complète (il pointe vers la page à l’origine du contenu)
  • dans ce cas, le résultat 1 correspond à la même URL que celle indiquée en source d’information (c’est souvent le cas mais pas systématique)

Maintenant, voici un extrait de la page concernée :

Extraction de texte Featured Snippets

L’algo de Google extrait seulement les bouts de texte utiles pour les Featured Snippets

J’ai noté que :

  • la page contient bien plus d’informations que l’extrait affiché dans les résultats de Google
  • Google a récupéré les noms des châteaux, en enlevant le reste
  • les noms sont affichés sur Google par ordre d’importance décroissante, ce qui correspond bien à la demande de l’internaute, alors que dans la page web source ils sont listés dans l’ordre inverse
  • dans cet exemple les éléments extraits sont des balises de titres (h4 ici, ce qui n’est pas correct au passage, lisez mes explications détaillées) mais j’ai trouvé plein d’autres cas où le texte récupéré n’avait pas de formatage particulier

Edit : après coup, on m’a signalé que pour cet exemple Google a trouvé la liste brute en bas de page, donc ce n’est pas le meilleur exemple qui soit pour montrer que Google sait résumer des contenus…

Concrètement, Google s’est basé sur le travail d’une équipe d’une centaine d’experts en linguistique, couvrant actuellement 20 à 30 langues. Ces experts, dirigés par David Orr (de Google) ont « appris » à un algorithme à trouver les bons extraits de mots, expressions ou phrases dans un corpus potentiellement long. Leur équipe a été baptisée Pygmalion.

Il s’agit d’un algorithme de Deep Learning, une branche de l’intelligence artificielle. Ce système utilise des réseaux de neurones convolutifs afin de reconnaître des modèles pendant une phase d’apprentissage supervisé, pour renforcer la justesse de la reconnaissance faite ensuite pendant un mode non-supervisé.

Comme tous les algos de deep learning, le système a besoin d’une énorme masse de données. Celles produites par l’équipe des 100 PhD sont les plus efficaces mais les plus difficiles à obtenir. Ils utilisent donc aussi des données de moins bonne qualité, mais disponibles en plus gros volumes, comme les titres des articles de presse.

La technique utilisée s’appelle « sentence compression algorithm« , c’est-à-dire littéralement un algorithme de compression de phrase. C’est une sorte de paraphrase améliorée, l’objectif étant de comprendre la question de l’internaute afin de sélectionner dans le texte uniquement les éléments les plus intéressants.

Pour ma part, ça m’inquiète un peu : dans peu de temps (même pas plusieurs années), Google saura-t-il répondre entièrement aux questions des internautes, en produisant un texte directement par son algo, lequel aura digéré toutes sortes d’informations récupérées sur Internet ? Mais alors, à quoi servirons-nous, éditeurs de sites web ?

On en discute dans le forum : de l’IA pour les Featured Snippets de Google

Cet article vous a-t-il plu ?

Note : 5.0 (6 votes)
Cliquez pour voter !

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.

7 commentaires

Olivier Duffez

Merci Fanny pour cet autre exemple. Je vais en trouver d’autres où l’algo de Google a réellement résumé le contenu…

Répondre
fannydoll

mince j’ai fait une faute… « contenu » il faut un e « la liste contenue »… si c’est possible de corriger je sais que tu as beaucoup d’autres choses à faire… sinon tant pis, j’aurais du me relire… désolée

Pour me faire pardonner si ça peut te faire gagner du temps, voici un exemple qui est plus parlant, quoi que… il s’agit quand-même d’une liste mais cette fois dans le diaporama des différents mascaras sur cette requête : https://www.google.fr/webhp?sourceid=chrome-instant&rlz=1C1CHBF_frFR720FR720&ion=1&espv=2&ie=UTF-8#q=meilleurs+mascaras voir donc dans la page le diaporama qui change d’url pour chaque produit (/2 /3 etc…)

désolée pour le côté « girly » des requêtes ^^ mais ça a l’air plus courant ce type de résultat sur cette thématique.

Répondre
Nicolas Chevallier

Ca fait peur et Google joue clairement avec le feu avec son moteur de réponses. Pour ma part j’écris régulièrement à la Commissaire Européenne Vestager pour l’alerter de la situation.

Répondre
Olivier Duffez

Peux-tu détailler un peu ce que tu veux dire, ce que tu reproches exactement à Google ? Est-ce qu’il prend nos contenus et nos infos pour se les approprier ?
As-tu des réponses ou retours de la Commission ?

Répondre
Macfly

N’est-ce pas le service que gg est censé rendre ?
On lui pose une question et il donne la réponse…et sa source.

L’exemple sur les crèmes anti-ride est très bon aussi, le site qui est mis en avant doit avoir un CTR énorme ! Et même peut être (surement) mieux que l’annonce adwords qui est en première position ?! (et donc au passage ça c’est pas top pour gg)

Avoir un encart pareil en résultat sur gg ne vous fait pas rêver ? cela veut dire que le site est jugé être de loin le meilleur contenu !

Oui je sais, vous craignez que gg donne la réponse et que plus aucun lien ne soit fait vers votre site web mais cela le décrédibiliserez à mon avis.

Donc la réponse à « Mais alors, à quoi servirons-nous, éditeurs de sites web ? » est dans la question, nous servirons à éditer et donc à créer le contenu et l’information, à en être la source. Terminé la copie, le plagiat, le spin ou même la synthèse, les machines savent le faire, il va falloir être créatif, ce qui est par contre encore loin d’être fait pour les machines !

Répondre
Olivier Duffez

Et quand on pose la question par oral à Google, et qu’on obtient une réponse également par oral, comment la source de l’info peut-elle être créditée (et rester rentable) ?

Répondre