Les crawlers des moteurs IA
Portrait Olivier Duffez

Olivier Duffez

Créateur de WebRankInfo,
consultant SEO

  • Olivier Duffez sur LinkedIn
  • Olivier Duffez sur X (Twitter)
  • Chaine Youtube WebRankInfo

Liste des crawlers des moteurs IA

Si vous souhaitez les bloquer ou au contraire assurer qu'ils accèdent bien à votre site, voici la liste des principaux crawlers des "moteurs IA" (ChatGPT, Gemini, Perplexity, Claude, Mistral et tous les autres)

Résumez ou partagez cette page :

Merci de me contacter si vous voyez une erreur ou un manque...

NomDescription
Amazonbot

Propriétaire : Amazon
Utilisé pour crawler le web afin d'enrichir les services Amazon, notamment les réponses d'Alexa, l'IA de Fire OS et les recommandations de produits.
User-Agent : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Anthropic-ai

Propriétaire : Anthropic
(Probable) Crawler d'entraînement. Pas d'info officielle, mais semble être un autre user-agent utilisé par Anthropic pour la collecte de données d'entraînement pour ses modèles.
User-Agent : Mozilla/5.0 (compatible; anthropic-ai/1.0; +http://www.anthropic.com/bot.html)
Applebot

Propriétaire : Apple
Crawler principal de recherche. Indexe le web pour les services Apple comme Siri et les suggestions Spotlight.
User-Agent : Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Applebot-Extended

Propriétaire : Apple
Crawler pour l'entraînement. Version spécifique d'Applebot utilisée pour collecter des données web dans le but d'entraîner les futurs modèles d'IA et de langage d'Apple.
Bingbot

Propriétaire : Microsoft
Crawler hybride (recherche + entraînement). Crawler principal de Bing. Les données sont utilisées pour l'indexation de recherche, mais aussi pour entraîner les modèles de Microsoft (Copilot) et alimenter ses réponses RAG.
User-Agent : Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
Bytespider

Propriétaire : ByteDance (TikTok)
Crawler pour l'entraînement. Utilisé pour entraîner les LLM de ByteDance (ex: Doubao). Collecte texte, images et vidéo pour divers algorithmes (recommandation, recherche, etc.).
User-Agent : Il n'y a pas de chaîne fixe, le token Bytespider est inclus dans un User-Agent de navigateur standard.
CCBot

Propriétaire : Common Crawl
Source de données publique. Le crawler de l'organisation à but non lucratif Common Crawl. Il ne "appartient" pas à une seule entreprise, mais ses données sont une source majeure pour l'entraînement de nombreux LLM (OpenAI, Meta, etc.).
User-Agent : CCBot/2.0 (+https://commoncrawl.org/bot.html)
ChatGPT-User

Propriétaire : OpenAI
Crawler de requête utilisateur. Il est déclenché lorsqu'un utilisateur de ChatGPT demande d'analyser une URL spécifique (fonctionnalité de "Browse with Bing"). Il ne crawle pas de manière proactive.
User-Agent : Il n'a pas de User-Agent unique ; il utilise un User-Agent de navigateur standard (ex: Chrome, Firefox) car la requête est effectuée via un proxy au nom de l'utilisateur.
Claude-SearchBot

Propriétaire : Anthropic
Crawler pour l'indexation (RAG). Navigue sur le web pour indexer du contenu et améliorer la pertinence des résultats de recherche fournis par Claude.
User-Agent : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +searchbot@anthropic.com)
Claude-User

Propriétaire : Anthropic
Crawler de requête utilisateur. Visite une page web spécifique à la demande d'un utilisateur interagissant avec Claude, similaire à ChatGPT-User.
User-Agent : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
ClaudeBot

Propriétaire : Anthropic
Crawler principal pour l'entraînement. Collecte du contenu web pour améliorer et entraîner les modèles génératifs d'Anthropic (famille Claude).
User-Agent : ClaudeBot/1.0; +https://www.anthropic.com
cohere-ai

Propriétaire : Cohere
Crawler pour l'entraînement. Collecte des données textuelles pour entraîner les modèles de langage d'entreprise de Cohere.
User-Agent : Le token est cohere-training-data-crawler. La documentation ne spécifie pas de chaîne User-Agent complète.
DeepSeekBot

Propriétaire : DeepSeek AI
Crawler pour l'entraînement. Utilisé pour collecter des données web afin d'entraîner les modèles de langage de DeepSeek.
User-agent : Mozilla/5.0 (compatible; DeepseekBot/1.0; +https://www.deepseek.com/bot)
Diffbot

Propriétaire : Diffbot
Transforme les pages web non structurées en données structurées (API). Ces données sont ensuite utilisées par diverses entreprises pour l'entraînement de leurs LLM.
User-Agent : Mozilla/5.0 (compatible; Diffbot/0.1; +http://www.diffbot.com)
DuckAssistBot

Propriétaire : DuckDuckGo
Collecte des données pour alimenter les réponses IA ("DuckAssist") directement dans les résultats de recherche de DuckDuckGo, souvent en synthétisant des informations de sources comme Wikipédia.
User-Agent : DuckAssistBot/1.2; (+http://duckduckgo.com/duckassistbot.html)
FacebookBot

Propriétaire : Meta
Génère des aperçus de liens sur Facebook/Instagram et collecte aussi des données d'entraînement pour Meta AI, en se basant sur les contenus partagés et populaires.
User-Agent : facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
Gemini-User

Propriétaire : Google
Il est déclenché lorsqu'un utilisateur de Gemini demande d'analyser une URL spécifique. C'est l'équivalent de ChatGPT-User pour Gemini.
User-Agent : Il n'a pas de User-Agent unique ; il utilise un User-Agent de navigateur standard ou un agent générique de Google.
Google-Extended

Propriétaire : Google
Crawler pour l'entraînement des modèles Gemini. Permet aux éditeurs de contrôler si leur contenu peut être utilisé pour entraîner les modèles génératifs de Google (Gemini, Vertex AI).
User-Agent : Le token est Google-Extended. Il n'a pas de chaîne User-Agent distincte, le crawl est effectué par les agents Googlebot standards.
GoogleOther

Propriétaire : Google
Utilisé par des équipes internes de Google pour crawler le web, potentiellement pour des projets de R&D incluant l'IA et les LLM. Son usage est distinct du crawl pour la recherche publique.
User-Agent : Il n'y a pas un seul User-Agent, mais plusieurs, comme par exemple Google-Read-Aloud.
GPTBot

Propriétaire : OpenAI
Crawler principal pour l'entraînement. Il est utilisé pour collecter des données sur le web afin d'entraîner les futurs modèles de langage d'OpenAI (comme les versions de GPT).
User-Agent : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Grok

Propriétaire : xAI (Elon Musk)
Pas de crawler officiel documenté. Grok utilise des user-agents génériques (notamment des user-agents iPhone) pour accéder au web, ce qui rend son identification difficile. Utilisé pour alimenter les réponses du chatbot Grok intégré à X (Twitter).
IbouBot

Propriétaire : Ibou (Babbar)
Alimente et met à jour la représentation graphique du web constituée par Ibou. Cette base de données et toutes les métriques sont utilisées pour fournir un moteur de recherche. Ibout n'entraîne pas de modèle d'intelligence artificielle avec les données.
User-Agent : Mozilla/5.0 (compatible; IbouBot/1.0; +bot@ibou.io; +https://ibou.io/iboubot.html)
LinkedInBot

Propriétaire : LinkedIn (Microsoft)
Extrait les données Open Graph pour les aperçus de liens. Il est probable que ces données soient aussi utilisées pour entraîner des modèles de connaissance ou de langage spécifiques à l'écosystème LinkedIn/Microsoft.
User-Agent : LinkedInBot/1.0 (compatible; Mozilla/5.0; Apache-HttpClient +http://www.linkedin.com)
Meta-ExternalAgent

Propriétaire : Meta
Crawler principal pour l'entraînement. Collecte du contenu web pour l'entraînement des modèles d'IA de Meta (comme Llama) et pour "l'amélioration des produits".
User-Agent : meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
MistralAI-User

Propriétaire : Mistral
Crawler de requête utilisateur. Bien que non officiellement documenté, ce user-agent est probablement utilisé lorsque les produits Mistral (comme Le Chat) doivent accéder à une URL à la demande d'un utilisateur.
User-Agent : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; MistralAI-User/1.0; +https://docs.mistral.ai/robots)
OAI-SearchBot

Propriétaire : OpenAI
Crawler utilisé pour les fonctionnalités de recherche web de ChatGPT, avec des liens dans les réponses. Il n'est pas utilisé pour explorer du contenu afin d'entraîner les modèles de base d'IA générative d'OpenAI.
User-Agent : Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot.
omgili

Propriétaire : Webz.io
Spécialisé dans l'indexation de contenus conversationnels (forums, commentaires, discussions). Utilisé par des développeurs de LLM pour obtenir des données sur la façon dont les gens communiquent.
User-Agent : omgili/0.5 +http://omgili.com
Perplexity-User

Propriétaire : Perplexity AI
Crawler de requête utilisateur. Visite une page lorsqu'un utilisateur clique sur une source dans les résultats de Perplexity. Il agit comme un utilisateur humain pour récupérer le contenu.
User-Agent : Il n'a pas de User-Agent unique ; il utilise un User-Agent de navigateur standard pour simuler un utilisateur réel.
PerplexityBot

Propriétaire : Perplexity AI
Crawler pour l'indexation (RAG). Indexe le web pour construire et alimenter le moteur de réponses de Perplexity. Il est au cœur de leur capacité à fournir des réponses sourcées en temps réel. Perplexity utilise également des crawlers non déclarés avec des user-agents génériques (imitant un navigateur classique) pour contourner les blocages via le fichier robots.txt.
User-Agent : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
YouBot

Propriétaire : You.com
Crawler pour l'indexation (RAG). Complète les réponses du LLM de You.com en activant l'option "Recherche web", similaire à PerplexityBot.
User-Agent : Mozilla/5.0 (compatible; YouBot (+http://www.you.com))

Voir aussi :

Sources :

Note : Certains moteurs IA comme Grok (xAI) ou DeepSeek n'ont pas de documentation officielle publique détaillée sur leurs crawlers au moment de la rédaction de cet article. Pour ces services, je vous recommande de consulter régulièrement leurs sites officiels ou de contacter directement leur support technique.

Résumez ou partagez cette page :

Cet article vous a-t-il plu ?

Note : 5.0 (1 vote)
Cliquez pour voter !

Si vous avez des questions, posez-les dans le forum WebRankInfo.

Si vous préférez du consulting, j'en propose sur mon site WebRankExpert.

Laisser un commentaire

Remarques :

  • Si vous souhaitez poser une question ou détailler un problème technique, il ne faut pas utiliser le formulaire ci-dessous qui est réservé aux avis. Posez votre question directement dans le forum Gmail de WebRankInfo. L'inscription est gratuite et immédiate.

  • En postant un avis, vous acceptez les CGU du site WebRankInfo. Si votre avis ne respecte pas ces règles, il pourra être refusé. Si vous indiquez votre adresse email, vous serez informé dès que votre avis aura été validé (ou refusé...) ; votre adresse ne sera pas utilisée pour vous envoyer des mailings et ne sera pas revendue ou cédée à des tiers.