Aller au contenu principal

robots.txt pour les bots IA : GPTBot, ClaudeBot, PerplexityBot et les autres

Le fichier robots.txt est le premier filtre que rencontrent les crawlers IA. Voici la configuration complète et a jour pour autoriser ou bloquer chaque bot en avril 2026.

Le fichier robots.txt est le premier filtre que rencontrent les crawlers IA quand ils visitent votre site. C'est aussi le point de blocage le plus frequent : selon nos audits, 38 % des sites français bloquent involontairement au moins un crawler IA majeur, ce qui les rend invisibles pour ChatGPT, Perplexity ou Claude. Voici la configuration complète et a jour pour avril 2026.

Que regardent les crawlers IA dans le robots.txt ?

Les crawlers IA respectent globalement le standard robots.txt tel que défini par l'IETF (RFC 9309). Chacun a son user-agent spécifique, et chacun lit votre fichier robots.txt avant de crawler vos pages. Une règle Disallow qui matche leur user-agent les arrêté net. Une règle Allow ou l'absence de Disallow les autorise.

Liste a jour des principaux bots IA en 2026

User-agentOperateurUsageStatut 2026
GPTBotOpenAIEntrainement GPTActif
OAI-SearchBotOpenAIChatGPT Search en temps reelActif
ChatGPT-UserOpenAIAction utilisateur dans ChatGPTActif
ClaudeBotAnthropicIndexation pour ClaudeActif
anthropic-aiAnthropicVariante ClaudeLegacy
PerplexityBotPerplexityIndex PerplexityActif
Perplexity-UserPerplexityAction utilisateur PerplexityActif
Google-ExtendedGoogleEntrainement Gemini et AI OverviewsActif
BytespiderByteDanceDoubao, TikTok IAActif
CCBotCommon CrawlCorpus public utilise par de nombreux LLMsActif
Meta-ExternalAgentMetaLlama, Meta AIActif
AmazonbotAmazonAlexa, Q BusinessActif
Applebot-ExtendedAppleApple IntelligenceActif

Configuration recommandee : tout autoriser

Pour un site qui veut maximiser sa visibilité IA, la règle est simple : tout autoriser sauf cas exceptionnels. Voici la configuration de référence :

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

Sitemap: https://votre-domaine.com/sitemap.xml

Astuce souvent oubliee : un Allow: / explicite est inutile au sens strict du standard, mais il sert de documentation et évité les ambiguites pour les futurs developpeurs qui modifieraient le fichier.

Configuration restrictive : bloquer l'entrainement, autoriser le search

Certains sites veulent un compromis : autoriser les crawlers de search en temps reel (qui generent du trafic) mais bloquer les crawlers d'entrainement (qui ne donnent rien en retour). Voici comment faire :

# Autoriser le search en temps reel
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

# Bloquer l'entrainement
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

Attention : bloquer GPTBot tout en autorisant OAI-SearchBot est une stratégie defendable mais imparfaite. ChatGPT Search a tendance a privilegier les contenus que GPTBot a déjà indexes. Bloquer GPTBot reduit donc indirectement votre presence dans ChatGPT Search. Mesurez avant de décider.

Configuration paywall : bloquer tout sauf pages publiques

Pour un site media avec contenu premium, il est legitime de bloquer les crawlers IA sur les contenus payants tout en les laissant indexer les pages publiques.

User-agent: GPTBot
Disallow: /premium/
Disallow: /abonnes/
Allow: /

User-agent: ClaudeBot
Disallow: /premium/
Disallow: /abonnes/
Allow: /

User-agent: PerplexityBot
Disallow: /premium/
Disallow: /abonnes/
Allow: /

Comment vérifier que la configuration fonctionne ?

Trois méthodes de vérification :

  1. Test direct du fichier : curl https://votre-domaine.com/robots.txt doit retourner exactement le contenu attendu.
  2. Test au niveau WAF/CDN : vérifier dans Cloudflare ou Vercel que les user-agents ne sont pas bloques par des règles WAF.
  3. Test de presence reelle : interroger ChatGPT et Perplexity sur votre marque ou contenu cible 14 jours après modification, et compter les citations.

Erreurs frequentes a éviter

Erreur 1 : oublier les variantes legacy

Anthropic utilise ClaudeBot aujourd'hui mais l'ancien anthropic-ai existe encore. OpenAI a trois user-agents distincts. Ne couvrez qu'un seul, c'est risquer d'en bloquer un autre.

Erreur 2 : Disallow * sans Allow spécifique

Une règle User-agent: * avec Disallow: / bloque tout le monde, y compris les bots IA. Si vous voulez bloquer la majorite mais autoriser les bons IA, mettez les règles spécifiques AVANT la règle catchall.

Erreur 3 : oublier la directive Sitemap

La directive Sitemap: a la fin du robots.txt est lue par les crawlers IA et acceleree leur decouverte de contenu. C'est gratuit, faites-le.

Erreur 4 : bloquer au niveau infrastructure

Cloudflare propose une option "Block AI Bots" en un clic. Beaucoup de sites l'ont activee sans s'en rendre compte. Verifiez dans votre dashboard Cloudflare que cette option est desactivee si vous voulez être cite par les LLMs.

L'erreur la plus couteuse de 2026 : avoir un robots.txt parfait mais un WAF Cloudflare qui bloque les user-agents IA au niveau réseau. Le crawler ne voit jamais votre robots.txt, il reçoit un 403 directement. Résultat : invisible total dans tous les LLMs, sans qu'aucun outil d'audit côté site ne le detecte.

Cas concret : -100 % de citations puis +400 % après correction

Un site media français a active "Block AI Bots" sur Cloudflare en janvier 2026 par defaut sans s'en rendre compte. Résultat : 0 citation Perplexity et ChatGPT pendant 6 semaines, alors qu'il etait habituellement cite 30 a 40 fois par mois. Après desactivation et correction du robots.txt, les citations sont remontees a 47 par semaine en moyenne, soit +400 % par rapport au point bas. Lecon : verifiez systematiquement la couche infrastructure en plus du fichier robots.txt.

Faut-il bloquer les bots IA pour proteger ses droits d'auteur ?

Question legitime mais souvent mal posee. Bloquer GPTBot ne supprime pas votre contenu de GPT-5 (il a déjà ete entraine sur Common Crawl). Cela empeche seulement les futures iterations d'être entrainees sur vos nouvelles pages. La vraie protection juridique est ailleurs : conditions d'utilisation explicites, mention "all rights reserved", action legale en cas d'usage non autorise. Le robots.txt est un signal, pas un bouclier juridique.

Configuration robots.txt par type de site : exemples complets

Voici trois configurations completes et commentees, adaptees aux situations les plus frequentes rencontrees lors des audits.

Configuration maximale : tout autoriser (site editorial ou e-commerce)

Pour un site qui veut maximiser sa visibilite dans tous les moteurs IA, la configuration la plus simple est la plus efficace. Inclut un commentaire explicatif pour les futurs developpeurs.

# Configuration AEO optimale - 2026
# Autoriser tous les moteurs de recherche et crawlers IA

User-agent: *
Allow: /

# OpenAI ChatGPT Search
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

# Anthropic Claude
User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

# Perplexity
User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

# Google AI
User-agent: Google-Extended
Allow: /

# Apple Intelligence
User-agent: Applebot-Extended
Allow: /

# Meta (Llama, Meta AI)
User-agent: Meta-ExternalAgent
Allow: /

Sitemap: https://votre-domaine.com/sitemap.xml

Configuration pour un site media avec paywall partiel

Autoriser l'indexation des articles gratuits, bloquer les contenus premium sur tous les bots IA, tout en maintenant la directive Sitemap pour la decouverte.

# Articles gratuits accessibles a tous les crawlers IA
User-agent: GPTBot
Disallow: /abonnes/
Disallow: /premium/
Allow: /

User-agent: ClaudeBot
Disallow: /abonnes/
Disallow: /premium/
Allow: /

User-agent: PerplexityBot
Disallow: /abonnes/
Disallow: /premium/
Allow: /

Sitemap: https://votre-domaine.com/sitemap.xml

Impact mesure des blocages et autorisations sur la citabilite IA

Les donnees issues des audits aeotool.io permettent de quantifier precisement l'effet du robots.txt sur la visibilite dans les moteurs de reponse IA.

Cas pratique : diagnostic et correction d'une invisibilite totale en 48 heures

Un editeur de contenus professionnels (B2B, 15 000 visiteurs/mois, 600 articles) signale en fevrier 2026 une chute soudaine des citations IA : de 45 citations/semaine a zero en l'espace de 10 jours. Le SEO Google est inchange, le trafic organique est stable. Cause suspectee : modification du robots.txt.

Diagnostic en 2 heures :

Correction en 30 minutes :

Resultats : premiere citation ChatGPT reapparue 9 jours apres la correction. Retour au niveau habituel (40+ citations/semaine) en 3 semaines. Lecon : toujours tester avec le user-agent du crawler, pas seulement lire le robots.txt.

Checklist robots.txt pour une visibilite IA maximale

Cette checklist couvre les verifications a effectuer sur le robots.txt et l'infrastructure pour garantir qu'aucun crawler IA n'est bloque.

Questions avancees sur le robots.txt et les crawlers IA

Les crawlers IA respectent-ils vraiment le robots.txt ?

Les grands acteurs (OpenAI, Anthropic, Google, Perplexity) declarent respecter le standard RFC 9309. Des tests independants de l'EFF et de NewsGuard en 2025 ont confirme que GPTBot, ClaudeBot et PerplexityBot respectent bien les directives Disallow. Des acteurs moins etablis (certains bots chinois) sont moins fiables. Si vous voulez une garantie absolue, la protection au niveau WAF reste la seule option.

Bloquer GPTBot empeche-t-il vraiment ChatGPT de citer mon site ?

Partiellement. GPT-5 a ete entraine sur des donnees anterieures a votre blocage — il connait peut-etre deja votre site. Bloquer GPTBot empeche les futures iterations d'etre entrainees sur vos nouvelles pages. Pour ChatGPT Search en temps reel, c'est OAI-SearchBot qui compte davantage. Bloquer GPTBot mais autoriser OAI-SearchBot est une strategie coherente pour les sites qui veulent du search sans entraînement.

Faut-il un robots.txt different par sous-domaine ?

Oui. Chaque sous-domaine a son propre robots.txt independant. Un robots.txt parfait sur votre domaine principal ne couvre pas blog.votre-domaine.com ni app.votre-domaine.com. Verifiez systematiquement robots.txt sur chaque sous-domaine que vous voulez faire indexer par les LLMs.

Quel est l'impact d'un robots.txt bloquant sur le score AEO ?

Massif. Dans le moteur de scoring aeotool.io, la categorie "robots/crawlabilite IA" represente 8 % du score global. Un blocage complet de GPTBot entraine une penalite de -15 points sur le score On-Site. Un blocage ClaudeBot entraine -8 points. Un blocage simultane de tous les bots IA peut faire passer un site de 60/100 a 25/100 sans aucune autre modification. C'est le critere avec le plus grand impact marginal par correction.

Conclusion : audit robots.txt + audit infra = visibilité IA

Le robots.txt est la première brique de votre stratégie AEO. Mal configure, il rend tout le reste inutile. Pour la majorite des sites, la bonne stratégie est d'autoriser tous les bots IA majeurs explicitement, de vérifier qu'aucune règle infrastructure ne bloque, et de tester après chaque modification. C'est l'optimisation la plus rapide et la plus rentable de tout l'arsenal AEO. Verifiez votre robots.txt aujourd'hui, vous trouverez peut-être la raison pour laquelle vous n'etes pas cite.