RankBrain, l'intelligence artificielle chez Google

Résumez ou partagez cette page :

Cet article fait partie des archives de WebRankInfo : certes, il est ancien, mais complet et détaillé pour son époque. Si vous cherchez d'autres informations, faites une recherche sur le site ou participez au forum. Contactez-moi si besoin.

L'IA au secours du moteur de recherche Google

Depuis plusieurs années, au moins 2013, Google a fortement modifié son algorithme. Rappelez-vous que Hummingbird avait été présenté comme le changement le plus important depuis le lancement du moteur de recherche. Pour résumer, Hummingbird tente de mieux "comprendre" la requête de l'internaute (notamment l'intention de l'internaute ainsi que le contexte de sa recherche) ainsi que les contenus indexés (à quelles entités font-ils référence ?).

Je ne sais pas si Greg Corrado a participé à l'élaboration de Colibri (= Hummingbird), mais Bloomberg nous apprend aujourd'hui qu'il a participé à celle de RankBrain.

C'est la première fois qu'un employé de Google explique de façon aussi concrète que l'intelligence artificielle est au coeur du moteur de recherche. D'après ce qu'on apprend, Rank Brain est chargé de traduire la demande de l'internaute de façon exploitable par l'algorithme du moteur de recherche. La syntaxe et l'intention de la requête sont particulièrement étudiées - comme le fait Hummingbird. Mais je ne sais pas si ces 2 systèmes ont quelque chose en commun.

Comme le résume l'auteur de l'article :

Avec RankBrain, Google utilise le deep learning (une représentation vectorielle du traitement automatique du langage naturel) pour interpréter les requêtes faites sur son moteur de recherche

Greg Corrado rappelle que 15% des milliards de requêtes effectuées sur Google sont inédites : aucun internaute n'avait jamais eu l'idée de les faire auparavant. Vous êtes sans doute surpris par ce chiffre, sauf si par exemple vous avez eu la bonne idée de participer à ma formation (où j'explique comment vraiment exploiter la longue traîne).

Partagez sur X Chaque jour, 15% des requêtes faites sur Google n'avaient encore jamais été faites jusque-là

Et justement, RankBrain vient au secours des algorithmes traditionnels de Google pour aider à répondre à ces 15% de requêtes. En se basant sur des quantités incroyables de mots et de bouts de phrases déjà connues (vive les big data), l'intelligence artificielle tente de "comprendre" des mots ou bouts de phrases inconnues, pour deviner à quoi ils correspondent. RankBrain serait ainsi particulièrement utile pour répondre à des requêtes ambigües.

Petite précision (source) : RankBrain est utilisé pour toutes les requêtes sur Google mais est particulièrement bon pour les 15% de requêtes qui n'avaient encore jamais été faites. D'où le raccourci fait part certains pour dire que RankBrain traite 15% des requêtes de Google (ce qui est donc faux).

Partagez sur X RankBrain (techniques d'intelligence artificielle) est utilisé pour toutes les requêtes sur Google

RankBrain est utilisé pour toutes les requêtes Google

A son lancement en 2015, RankBrain était utilisé pour une partie seulement des cas, mais depuis 2016 chaque requête d'un internaute passe par RankBrain...

Robots et machine learning — Des robots qui fonctionnent avec des algos de machine learning chez Google...

Utilisé dans 100% des cas pour comprendre la requête

En résumé, RankBrain est un système basé sur le machine learning permettant à Google de mieux comprendre les requêtes des internautes. Il peut s'agir de requêtes très longues et précises (très longue traîne) ou de requêtes n'ayant jamais été faites et peu similaires à d'autres plus connues.

Grâce aux nouvelles méthodes d'intelligence artificielle dont Google est devenu un des plus grands spécialistes mondiaux, RankBrain parviendrait à mieux comprendre ces requêtes difficiles.

D'après Steven Levy, Jeff Dean (Google) a déclaré que :

Partagez sur X RankBrain est utilisé dans toutes les requêtes (algo de machine learning de Google)

et que :

Partagez sur X RankBrain modifie le positionnement des résultats pour de nombreuses requêtes

Les termes exacts en anglais étaient :

Dean says that RankBrain is “involved in every query,” and affects the actual rankings “probably not in every query but in a lot of queries.”

Mais alors que doit-on faire pour s'adapter ?

Comment bosser son référencement pour RankBrain ?

Réponse : il n'y a rien que vous puissiez faire spécifiquement pour RankBrain. Ce n'est pas moi qui le dit, c'est Google et tous les experts (sérieux).

Je pense qu'il faut considérer que RankBrain sert à mieux comprendre la requête de l'internaute. Depuis longtemps Google "réécrit" la requête mais là c'est fait de façon sans doute plus profonde. En gros, Google ne répond pas exactement aux mots tapés ou dictés par l'internaute, mais à une requête qui lui semble très bien correspondre et pour laquelle son algo sait mieux répondre, avec une meilleure pertinence de résultats.

Concentrez-vous à faire un contenu de haute qualité qui réponde aux besoins de l'internaute, à son intention cachée dans sa requête. Tâchez d'anticiper ce que veut l'internaute et faites en sorte de lui fournir la plus grande valeur ajoutée possible, pour maximiser le taux de satisfaction.

Le Machine Learning (ML), au coeur de tout Google

Comprenez bien que ce n'est que le début, Google étant littéralement obsédé par le machine learning. Son PDG Sundar Pichai a clairement expliqué en 2016 qu'il souhaitait l'utiliser pour tous les produits/services de Google :

Machine learning is a core, transformative way by which we’re rethinking how we’re doing everything. We are thoughtfully applying it across all our products, be it search, ads, YouTube, or Play. And we’re in early days, but you will see us — in a systematic way — apply machine learning in all these areas.

On l'a déjà vu à l'oeuvre chez DeepMind, l'entreprise rachetée 500M$ par Google en 2014 pour développer Google Brain, des algorithmes d'intelligence artificielle. Un des événements les plus médiatiques associés à DeepMind est certainement la victoire de leur algo AlphaGo contre le meilleur joueur du monde de Go...

Si le grand public en entend parler surtout depuis 2015 (et encore), le machine learning est au coeur de Google depuis déjà longtemps. En 2005, Peter Norvig a mis en place chez Google un cours hebdomadaire, enseigné par le chercheur David Pablo Cohn. Le succès fut énorme, des vidéos furent mises en place pour assister aux cours à distance, par exemple à Bangalore (Inde). D'après Steven Levy, ceci a fait partie des précurseurs des MOOC.

Parmi les services les plus célèbres utilisant massivement le ML (Machine Learning), on peut citer Google Photos, le service de traduction et la recherche vocale (en énorme expansion). C'est également le ML qui permet à Gmail de vous préparer des réponses toutes faites (Smart Reply) ou de détecter le spam. D'ailleurs, Smart Reply a été mis au point en partie par Greg Corrado, co-créateur de Google Brain. Le même Corrado qui a travaillé sur RankBrain...

Au passage, j'ai appris que :

Partagez sur X 10% des mails envoyés via Inbox (Gmail) sont des textes créés par la machine

Selon Jeff Dean, co-créateur de Big Table et MapReduce, si Google devait repenser son architecture (informatique), l'essentiel serait "appris" et non "codé" !

RankBrain, critère de l'algorithme de classement de Google ?

Selon ce que rapporte Bloomberg, RankBrain serait un des centaines de critères de l'algorithme de Google, mais tout de même le 3ème plus important :

In the few months it has been deployed, RankBrain has become the third-most important signal contributing to the result of a search query

Il me semble que cette phrase rapportée est trop floue et qu'on ne peut rien en déduire en termes SEO, sauf peut-être que RankBrain n'est sans doute pas un "critère" (signal)... Cela dit, les techniques d'IA (et particulièrement d'apprentissage automatique) jouent un rôle fondamental dans un nombre croissant de produits et services de Google, comme l'a rappelé Sundar Pichai :

Machine learning is a core transformative way by which we are rethinking everything we are doing.

D'après les concepteurs de RankBrain, le système a surpassé les ingénieurs (humains) sur certains tests, et les utilisateurs semblent préférer les résultats quand RankBrain est utilisé. Selon Bloomberg, on trouve dans l'équipe de Greg Corrado d'autres experts de la recherche d'information comme Yonghui Wu ainsi que Thomas Strohmann, expert en deep learning.

C'est Amit Singhal qui aurait donné le feu vert pour l'intégration de RankBrain dans la version en ligne de Google, "début 2015". Voilà un update qui a certainement modifié le classement des résultats sans que l'on puisse comprendre l'algo en cause - logique, il était tout nouveau.

Partagez sur X RankBrain est utilisé sur Google depuis début 2015 - mais les SEO ne l'ont pas repéré !

RankBrain est surveillé de près, pour s'assurer de la qualité des résultats. Il est également mis à jour régulièrement avec des nouvelles données. D'après Gary Illyes, les ingénieurs savent encore comment fonctionne la bête. Il a indiqué sur Twitter que "ses effets sont prévisibles, mais pas assumables" :

https://twitter.com/methode/status/658735811886628864

Quelle fréquence pour les updates de RankBrain ? Pas du temps réel :

Partagez sur X RankBrain est régulièrement entraîné, mais il n'apprend pas au fil de l'eau

c'est en tout cas ce qu'a précisé le journaliste Jack Clark qui a signé cet article :

https://twitter.com/mappingbabel/status/658745918884290560

Abonnez-vous à ma newsletter pour ne pas manquer les prochains articles sur RankBrain et les autres utilisations de l'intelligence artificielle dans l'algo de Google.

Voici une courte vidéo d'une présentatrice de Bloomberg TV interviewant le journaliste :

Qui est Greg Corrado ?

Greg Corrado est un chercheur scientifique senior chez Google travaillant en intelligence artificielle, en neurosciences et informatique ainsi qu'en techniques d'apprentissage automatique scalable (c'est-à-dire qu'elles peuvent s'appliquer à différentes échelles). Il a publié dans des domaines allant de l'économie comportementale à la physique des particules, aux neurosciences des systèmes, et à l'apprentissage en profondeur (deep learning).

Chez Google, il a travaillé pendant un certain temps sur le calcul inspiré par le cerveau. Plus récemment, il fut l'un des membres fondateurs et du projet de réseau de neurones profond à grande échelle.

Avant de venir à Google, il a travaillé chez IBM Research sur la puce de silicium neuromorphique "Synapse". Il a fait ses études supérieures en neurosciences et en sciences informatiques à l'Université de Stanford, et son premier cycle en physique à l'Université de Princeton.

Si vous souhaitez de la lecture, consultez cette page qui liste certaines de ses publications.

Pour découvrir ce que sont l'apprentissage automatique et les "réseaux de neurones profonds", regardez cette vidéo :

Voici pour finir une vidéo tournée à l'occasion d'une conférence sur le Deep Learning en janvier 2015 à San Francisco :

On n'a pas fini d'entendre parler d'IA avec Google Search...

Résumez ou partagez cette page :

Cet article vous a-t-il plu ?

Note : 3.7 (3 votes)

Cliquez pour voter !

Si vous avez des questions, posez-les dans le forum WebRankInfo.

Si vous préférez du consulting, j'en propose sur mon site WebRankExpert.

Un Commentaire

Marc, Annuaire Francais 27 octobre 2015

Bonjour @olivier

C'est un article très passionnant, qui m'occupe pleinement en ce moment. Heureusement qu'il y a le forum WRI pour venir se reposer les neuronnes, et vider un peu son cerveau des bonnes et moins bonnes choses :-)

J'ai commencé a tester des algorithmes pour interpréter le sens des requêtes. A l'aide de listes de synonymes , de règles de taxinomie, d'ontologie, on essaye de classer des mots sur des arbres d'index, avec un nettoyage phonetique et une sélection d'options.

Cela parait simple, mais c'est extremement compliqué au final. Déjà que je ne suis pas expert, on arrive vite a des méthode de programme extremement complexe, que l'on fini par jeter a la poubelle pour tout recommencer x fois. Car le probème de fond, ce n'est pas trop la structure et la finalité pour obtenir un bon résultat, le soucis est la vitesse.

Quand on essaye de mouliner sur des millions de pages, pour étayer une méthode, les tables grossissent vite, et avec elles les index. Il faut donc un automatisme pour scinder des données groupées et créer de nouvelle tables, champs et index pour regrouper ces données.

Je bute pour le moment pour cet automatisme, alors j'essaye de le faire autrement...

On reste sans voix d'une telle maitrise technologique, ca fait rêver ^^

Les commentaires sont fermés