Liste des crawlers des moteurs IA en 2026 : user-agent, explications

Partagez cette page :

Merci de me contacter si vous voyez une erreur ou un manque...

Nom	Description
Amazonbot Propriétaire : Amazon	Utilisé pour crawler le web afin d'enrichir les services Amazon, notamment les réponses d'Alexa, l'IA de Fire OS et les recommandations de produits. User-Agent : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Anthropic-ai Propriétaire : Anthropic	(Probable) Crawler d'entraînement. Pas d'info officielle, mais semble être un autre user-agent utilisé par Anthropic pour la collecte de données d'entraînement pour ses modèles. User-Agent : Mozilla/5.0 (compatible; anthropic-ai/1.0; +http://www.anthropic.com/bot.html)
Applebot Propriétaire : Apple	Crawler principal de recherche. Indexe le web pour les services Apple comme Siri et les suggestions Spotlight. User-Agent : Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.4 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Applebot-Extended Propriétaire : Apple	Crawler pour l'entraînement. Version spécifique d'Applebot utilisée pour collecter des données web dans le but d'entraîner les futurs modèles d'IA et de langage d'Apple.
Bingbot Propriétaire : Microsoft	Crawler hybride (recherche + entraînement). Crawler principal de Bing. Les données sont utilisées pour l'indexation de recherche, mais aussi pour entraîner les modèles de Microsoft (Copilot) et alimenter ses réponses RAG. User-Agent : Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
Bytespider Propriétaire : ByteDance (TikTok)	Crawler pour l'entraînement. Utilisé pour entraîner les LLM de ByteDance (ex: Doubao). Collecte texte, images et vidéo pour divers algorithmes (recommandation, recherche, etc.). User-Agent : Il n'y a pas de chaîne fixe, le token Bytespider est inclus dans un User-Agent de navigateur standard.
CCBot Propriétaire : Common Crawl	Source de données publique. Le crawler de l'organisation à but non lucratif Common Crawl. Il ne "appartient" pas à une seule entreprise, mais ses données sont une source majeure pour l'entraînement de nombreux LLM (OpenAI, Meta, etc.). User-Agent : CCBot/2.0 (+https://commoncrawl.org/bot.html)
ChatGPT-User Propriétaire : OpenAI	Crawler de requête utilisateur. Il est déclenché lorsqu'un utilisateur de ChatGPT demande d'analyser une URL spécifique (fonctionnalité de "Browse with Bing"). Il ne crawle pas de manière proactive. User-Agent : Il n'a pas de User-Agent unique ; il utilise un User-Agent de navigateur standard (ex: Chrome, Firefox) car la requête est effectuée via un proxy au nom de l'utilisateur.
Claude-SearchBot Propriétaire : Anthropic	Crawler pour l'indexation (RAG). Navigue sur le web pour indexer du contenu et améliorer la pertinence des résultats de recherche fournis par Claude. User-Agent : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-SearchBot/1.0; +searchbot@anthropic.com)
Claude-User Propriétaire : Anthropic	Crawler de requête utilisateur. Visite une page web spécifique à la demande d'un utilisateur interagissant avec Claude, similaire à ChatGPT-User. User-Agent : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Claude-User/1.0; +Claude-User@anthropic.com)
ClaudeBot Propriétaire : Anthropic	Crawler principal pour l'entraînement. Collecte du contenu web pour améliorer et entraîner les modèles génératifs d'Anthropic (famille Claude). User-Agent : ClaudeBot/1.0; +https://www.anthropic.com
cohere-ai Propriétaire : Cohere	Crawler pour l'entraînement. Collecte des données textuelles pour entraîner les modèles de langage d'entreprise de Cohere. User-Agent : Le token est cohere-training-data-crawler. La documentation ne spécifie pas de chaîne User-Agent complète.
DeepSeekBot Propriétaire : DeepSeek AI	Crawler pour l'entraînement. Utilisé pour collecter des données web afin d'entraîner les modèles de langage de DeepSeek. User-agent : Mozilla/5.0 (compatible; DeepseekBot/1.0; +https://www.deepseek.com/bot)
Diffbot Propriétaire : Diffbot	Transforme les pages web non structurées en données structurées (API). Ces données sont ensuite utilisées par diverses entreprises pour l'entraînement de leurs LLM. User-Agent : Mozilla/5.0 (compatible; Diffbot/0.1; +http://www.diffbot.com)
DuckAssistBot Propriétaire : DuckDuckGo	Collecte des données pour alimenter les réponses IA ("DuckAssist") directement dans les résultats de recherche de DuckDuckGo, souvent en synthétisant des informations de sources comme Wikipédia. User-Agent : DuckAssistBot/1.2; (+http://duckduckgo.com/duckassistbot.html)
FacebookBot Propriétaire : Meta	Génère des aperçus de liens sur Facebook/Instagram et collecte aussi des données d'entraînement pour Meta AI, en se basant sur les contenus partagés et populaires. User-Agent : facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)
Gemini-User Propriétaire : Google	Il est déclenché lorsqu'un utilisateur de Gemini demande d'analyser une URL spécifique. C'est l'équivalent de ChatGPT-User pour Gemini. User-Agent : Il n'a pas de User-Agent unique ; il utilise un User-Agent de navigateur standard ou un agent générique de Google.
Google-Extended Propriétaire : Google	Crawler pour l'entraînement des modèles Gemini. Permet aux éditeurs de contrôler si leur contenu peut être utilisé pour entraîner les modèles génératifs de Google (Gemini, Vertex AI). User-Agent : Le token est Google-Extended. Il n'a pas de chaîne User-Agent distincte, le crawl est effectué par les agents Googlebot standards.
GoogleOther Propriétaire : Google	Utilisé par des équipes internes de Google pour crawler le web, potentiellement pour des projets de R&D incluant l'IA et les LLM. Son usage est distinct du crawl pour la recherche publique. User-Agent : Il n'y a pas un seul User-Agent, mais plusieurs, comme par exemple Google-Read-Aloud.
GPTBot Propriétaire : OpenAI	Crawler principal pour l'entraînement. Il est utilisé pour collecter des données sur le web afin d'entraîner les futurs modèles de langage d'OpenAI (comme les versions de GPT). User-Agent : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Grok Propriétaire : xAI (Elon Musk)	Pas de crawler officiel documenté. Grok utilise des user-agents génériques (notamment des user-agents iPhone) pour accéder au web, ce qui rend son identification difficile. Utilisé pour alimenter les réponses du chatbot Grok intégré à X (Twitter).
IbouBot Propriétaire : Ibou (Babbar)	Alimente et met à jour la représentation graphique du web constituée par Ibou. Cette base de données et toutes les métriques sont utilisées pour fournir un moteur de recherche. Ibout n'entraîne pas de modèle d'intelligence artificielle avec les données. User-Agent : Mozilla/5.0 (compatible; IbouBot/1.0; +bot@ibou.io; +https://ibou.io/iboubot.html)
LinkedInBot Propriétaire : LinkedIn (Microsoft)	Extrait les données Open Graph pour les aperçus de liens. Il est probable que ces données soient aussi utilisées pour entraîner des modèles de connaissance ou de langage spécifiques à l'écosystème LinkedIn/Microsoft. User-Agent : LinkedInBot/1.0 (compatible; Mozilla/5.0; Apache-HttpClient +http://www.linkedin.com)
Meta-ExternalAgent Propriétaire : Meta	Crawler principal pour l'entraînement. Collecte du contenu web pour l'entraînement des modèles d'IA de Meta (comme Llama) et pour "l'amélioration des produits". User-Agent : meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
MistralAI-User Propriétaire : Mistral	Crawler de requête utilisateur. Bien que non officiellement documenté, ce user-agent est probablement utilisé lorsque les produits Mistral (comme Le Chat) doivent accéder à une URL à la demande d'un utilisateur. User-Agent : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; MistralAI-User/1.0; +https://docs.mistral.ai/robots)
OAI-AdsBot Propriétaire : OpenAI	Crawler utilisé pour valider la sécurité et la pertinence des pages web soumises comme publicités sur ChatGPT. Il n'est pas utilisé pour collecter des données afin d'entraîner les modèles de base d'IA générative d'OpenAI. Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-AdsBot/1.0; +https://openai.com/adsbot
OAI-SearchBot Propriétaire : OpenAI	Crawler utilisé pour les fonctionnalités de recherche web de ChatGPT, avec des liens dans les réponses. Il n'est pas utilisé pour explorer du contenu afin d'entraîner les modèles de base d'IA générative d'OpenAI. User-Agent : Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot.
omgili Propriétaire : Webz.io	Spécialisé dans l'indexation de contenus conversationnels (forums, commentaires, discussions). Utilisé par des développeurs de LLM pour obtenir des données sur la façon dont les gens communiquent. User-Agent : omgili/0.5 +http://omgili.com
Perplexity-User Propriétaire : Perplexity AI	Crawler de requête utilisateur. Visite une page lorsqu'un utilisateur clique sur une source dans les résultats de Perplexity. Il agit comme un utilisateur humain pour récupérer le contenu. User-Agent : Il n'a pas de User-Agent unique ; il utilise un User-Agent de navigateur standard pour simuler un utilisateur réel.
PerplexityBot Propriétaire : Perplexity AI	Crawler pour l'indexation (RAG). Indexe le web pour construire et alimenter le moteur de réponses de Perplexity. Il est au cœur de leur capacité à fournir des réponses sourcées en temps réel. Perplexity utilise également des crawlers non déclarés avec des user-agents génériques (imitant un navigateur classique) pour contourner les blocages via le fichier robots.txt. User-Agent : Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
YouBot Propriétaire : You.com	Crawler pour l'indexation (RAG). Complète les réponses du LLM de You.com en activant l'option "Recherche web", similaire à PerplexityBot. User-Agent : Mozilla/5.0 (compatible; YouBot (+http://www.you.com))

Voir aussi :

Sources :

OpenAI : GPTBot, OpenAI's Web Crawler
Anthropic : Does Anthropic crawl data from the web, and how can site owners block the crawler?
Google : Overview of Google crawlers (user agents)
Google : Google's common crawlers (lien
Perplexity : PerplexityBot
Apple : About Applebot
Meta : Meta External Agent
Common Crawl : Common Crawl FAQ
Ibou : IbouBot

Note : Certains moteurs IA comme Grok (xAI) ou DeepSeek n'ont pas de documentation officielle publique détaillée sur leurs crawlers au moment de la rédaction de cet article. Pour ces services, je vous recommande de consulter régulièrement leurs sites officiels ou de contacter directement leur support technique.

Partagez cette page :

Cet article vous a-t-il plu ?

Note : 5.0 (2 votes)

Cliquez pour voter !

Si vous avez des questions, posez-les dans le forum WebRankInfo.

Si vous préférez du consulting, j'en propose sur mon site WebRankExpert.