robots.txt pour les bots IA : GPTBot, ClaudeBot, PerplexityBot et les autres

Le fichier robots.txt est le premier filtre que rencontrent les crawlers IA. Voici la configuration complète et a jour pour autoriser ou bloquer chaque bot en avril 2026.

Le fichier robots.txt est le premier filtre que rencontrent les crawlers IA quand ils visitent votre site. C'est aussi le point de blocage le plus frequent : selon nos audits, 38 % des sites français bloquent involontairement au moins un crawler IA majeur, ce qui les rend invisibles pour ChatGPT, Perplexity ou Claude. Voici la configuration complète et a jour pour avril 2026.

Que regardent les crawlers IA dans le robots.txt ?

Les crawlers IA respectent globalement le standard robots.txt tel que défini par l'IETF (RFC 9309). Chacun a son user-agent spécifique, et chacun lit votre fichier robots.txt avant de crawler vos pages. Une règle Disallow qui matche leur user-agent les arrêté net. Une règle Allow ou l'absence de Disallow les autorise.

Liste a jour des principaux bots IA en 2026

User-agent	Operateur	Usage	Statut 2026
GPTBot	OpenAI	Entrainement GPT	Actif
OAI-SearchBot	OpenAI	ChatGPT Search en temps reel	Actif
ChatGPT-User	OpenAI	Action utilisateur dans ChatGPT	Actif
ClaudeBot	Anthropic	Indexation pour Claude	Actif
anthropic-ai	Anthropic	Variante Claude	Legacy
PerplexityBot	Perplexity	Index Perplexity	Actif
Perplexity-User	Perplexity	Action utilisateur Perplexity	Actif
Google-Extended	Google	Entrainement Gemini et AI Overviews	Actif
Bytespider	ByteDance	Doubao, TikTok IA	Actif
CCBot	Common Crawl	Corpus public utilise par de nombreux LLMs	Actif
Meta-ExternalAgent	Meta	Llama, Meta AI	Actif
Amazonbot	Amazon	Alexa, Q Business	Actif
Applebot-Extended	Apple	Apple Intelligence	Actif

Configuration recommandee : tout autoriser

Pour un site qui veut maximiser sa visibilité IA, la règle est simple : tout autoriser sauf cas exceptionnels. Voici la configuration de référence :

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

Sitemap: https://votre-domaine.com/sitemap.xml

Astuce souvent oubliee : un Allow: / explicite est inutile au sens strict du standard, mais il sert de documentation et évité les ambiguites pour les futurs developpeurs qui modifieraient le fichier.

Configuration restrictive : bloquer l'entrainement, autoriser le search

Certains sites veulent un compromis : autoriser les crawlers de search en temps reel (qui generent du trafic) mais bloquer les crawlers d'entrainement (qui ne donnent rien en retour). Voici comment faire :

# Autoriser le search en temps reel
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

# Bloquer l'entrainement
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

Attention : bloquer GPTBot tout en autorisant OAI-SearchBot est une stratégie defendable mais imparfaite. ChatGPT Search a tendance a privilegier les contenus que GPTBot a déjà indexes. Bloquer GPTBot reduit donc indirectement votre presence dans ChatGPT Search. Mesurez avant de décider.

Configuration paywall : bloquer tout sauf pages publiques

Pour un site media avec contenu premium, il est legitime de bloquer les crawlers IA sur les contenus payants tout en les laissant indexer les pages publiques.

User-agent: GPTBot
Disallow: /premium/
Disallow: /abonnes/
Allow: /

User-agent: ClaudeBot
Disallow: /premium/
Disallow: /abonnes/
Allow: /

User-agent: PerplexityBot
Disallow: /premium/
Disallow: /abonnes/
Allow: /

Comment vérifier que la configuration fonctionne ?

Trois méthodes de vérification :

Test direct du fichier : curl https://votre-domaine.com/robots.txt doit retourner exactement le contenu attendu.
Test au niveau WAF/CDN : vérifier dans Cloudflare ou Vercel que les user-agents ne sont pas bloques par des règles WAF.
Test de presence reelle : interroger ChatGPT et Perplexity sur votre marque ou contenu cible 14 jours après modification, et compter les citations.

Erreurs frequentes a éviter

Erreur 1 : oublier les variantes legacy

Anthropic utilise ClaudeBot aujourd'hui mais l'ancien anthropic-ai existe encore. OpenAI a trois user-agents distincts. Ne couvrez qu'un seul, c'est risquer d'en bloquer un autre.

Erreur 2 : Disallow * sans Allow spécifique

Une règle User-agent: * avec Disallow: / bloque tout le monde, y compris les bots IA. Si vous voulez bloquer la majorite mais autoriser les bons IA, mettez les règles spécifiques AVANT la règle catchall.

Erreur 3 : oublier la directive Sitemap

La directive Sitemap: a la fin du robots.txt est lue par les crawlers IA et acceleree leur decouverte de contenu. C'est gratuit, faites-le.

Erreur 4 : bloquer au niveau infrastructure

Cloudflare propose une option "Block AI Bots" en un clic. Beaucoup de sites l'ont activee sans s'en rendre compte. Verifiez dans votre dashboard Cloudflare que cette option est desactivee si vous voulez être cite par les LLMs.

L'erreur la plus couteuse de 2026 : avoir un robots.txt parfait mais un WAF Cloudflare qui bloque les user-agents IA au niveau réseau. Le crawler ne voit jamais votre robots.txt, il reçoit un 403 directement. Résultat : invisible total dans tous les LLMs, sans qu'aucun outil d'audit côté site ne le detecte.

Cas concret : -100 % de citations puis +400 % après correction

Un site media français a active "Block AI Bots" sur Cloudflare en janvier 2026 par defaut sans s'en rendre compte. Résultat : 0 citation Perplexity et ChatGPT pendant 6 semaines, alors qu'il etait habituellement cite 30 a 40 fois par mois. Après desactivation et correction du robots.txt, les citations sont remontees a 47 par semaine en moyenne, soit +400 % par rapport au point bas. Lecon : verifiez systematiquement la couche infrastructure en plus du fichier robots.txt.

Faut-il bloquer les bots IA pour proteger ses droits d'auteur ?

Question legitime mais souvent mal posee. Bloquer GPTBot ne supprime pas votre contenu de GPT-5 (il a déjà ete entraine sur Common Crawl). Cela empeche seulement les futures iterations d'être entrainees sur vos nouvelles pages. La vraie protection juridique est ailleurs : conditions d'utilisation explicites, mention "all rights reserved", action legale en cas d'usage non autorise. Le robots.txt est un signal, pas un bouclier juridique.

Configuration robots.txt par type de site : exemples complets

Voici trois configurations completes et commentees, adaptees aux situations les plus frequentes rencontrees lors des audits.

Configuration maximale : tout autoriser (site editorial ou e-commerce)

Pour un site qui veut maximiser sa visibilite dans tous les moteurs IA, la configuration la plus simple est la plus efficace. Inclut un commentaire explicatif pour les futurs developpeurs.

# Configuration AEO optimale - 2026
# Autoriser tous les moteurs de recherche et crawlers IA

User-agent: *
Allow: /

# OpenAI ChatGPT Search
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

# Anthropic Claude
User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

# Perplexity
User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

# Google AI
User-agent: Google-Extended
Allow: /

# Apple Intelligence
User-agent: Applebot-Extended
Allow: /

# Meta (Llama, Meta AI)
User-agent: Meta-ExternalAgent
Allow: /

Sitemap: https://votre-domaine.com/sitemap.xml

Configuration pour un site media avec paywall partiel

Autoriser l'indexation des articles gratuits, bloquer les contenus premium sur tous les bots IA, tout en maintenant la directive Sitemap pour la decouverte.

# Articles gratuits accessibles a tous les crawlers IA
User-agent: GPTBot
Disallow: /abonnes/
Disallow: /premium/
Allow: /

User-agent: ClaudeBot
Disallow: /abonnes/
Disallow: /premium/
Allow: /

User-agent: PerplexityBot
Disallow: /abonnes/
Disallow: /premium/
Allow: /

Sitemap: https://votre-domaine.com/sitemap.xml

Impact mesure des blocages et autorisations sur la citabilite IA

Les donnees issues des audits aeotool.io permettent de quantifier precisement l'effet du robots.txt sur la visibilite dans les moteurs de reponse IA.

38 % des sites français bloquent involontairement au moins un crawler IA majeur selon les audits aeotool.io en mars 2026.
0 citation pendant 6 semaines pour un site media qui avait active "Block AI Bots" Cloudflare par defaut, alors qu'il generait habituellement 30-40 citations/semaine.
+400 % de citations en 4 semaines apres correction du robots.txt et desactivation du blocage Cloudflare pour ce meme site.
-15 points sur 100 dans le score AEO aeotool.io pour un blocage complet de GPTBot. Un blocage simultane de tous les bots IA peut faire passer un site de 60/100 a 25/100.
5 sources de blocage possibles independamment du robots.txt : WAF Cloudflare, regles Vercel, headers X-Robots-Tag, IP filtering, CDN edge rules. Chacune peut bloquer un crawler a l'insu du webmaster.
2 a 3 semaines : delai observe avant que ChatGPT Search commence a citer un site apres autorisation effective de GPTBot (temps de recrawl et reindexation).
35 % de potentiel de citation perdu pour ChatGPT Search si le site n'est pas indexe par Bing, independamment du robots.txt.

Cas pratique : diagnostic et correction d'une invisibilite totale en 48 heures

Un editeur de contenus professionnels (B2B, 15 000 visiteurs/mois, 600 articles) signale en fevrier 2026 une chute soudaine des citations IA : de 45 citations/semaine a zero en l'espace de 10 jours. Le SEO Google est inchange, le trafic organique est stable. Cause suspectee : modification du robots.txt.

Diagnostic en 2 heures :

Verification du robots.txt actuel : curl https://domaine.com/robots.txt — robots.txt correct en apparence, GPTBot autorise.
Verification des headers : curl -I -A "GPTBot" https://domaine.com/ — retourne HTTP 403. Blocage au niveau infrastructure, pas robots.txt.
Verification Cloudflare : l'option "Bot Fight Mode" avait ete activee par un stagiaire lors d'un audit securite. Ce mode bloque automatiquement tous les bots consideres comme non-legitimes, y compris GPTBot selon la configuration par defaut de cette periode.

Correction en 30 minutes :

Desactivation du Bot Fight Mode dans Cloudflare.
Ajout d'une regle WAF explicite : autoriser GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot en whitelist.
Verification avec curl -A pour chaque bot : tous retournent maintenant HTTP 200.

Resultats : premiere citation ChatGPT reapparue 9 jours apres la correction. Retour au niveau habituel (40+ citations/semaine) en 3 semaines. Lecon : toujours tester avec le user-agent du crawler, pas seulement lire le robots.txt.

Checklist robots.txt pour une visibilite IA maximale

Cette checklist couvre les verifications a effectuer sur le robots.txt et l'infrastructure pour garantir qu'aucun crawler IA n'est bloque.

Verification du fichier robots.txt
- curl https://votre-domaine.com/robots.txt retourne exactement le contenu attendu
- Aucune règle User-agent: * avec Disallow: / sans exceptions explicites
- Tous les bots actifs couverts : GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, anthropic-ai, PerplexityBot, Perplexity-User, Google-Extended
- Directive Sitemap: presente a la fin du fichier
Verification Cloudflare (si utilise)
- Option "Block AI Bots" desactivee dans Security settings
- Aucune règle WAF qui bloque les user-agents IA
- Aucune règle Rate Limiting qui bloque les crawlers (ils peuvent faire beaucoup de requetes en peu de temps)
Verification Vercel/CDN (si utilise)
- Aucune regle de securite dans vercel.json qui bloque des user-agents
- Headers de securite (CSP, X-Robots-Tag) n'incluent pas de noindex/nofollow non desire
Verification des headers HTTP
- curl -I https://votre-domaine.com/ ne retourne pas X-Robots-Tag: noindex
- Reponse HTTP 200 et non 403/429 quand simule avec le user-agent GPTBot
Test fonctionnel post-modification
- Attendre 14 jours apres chaque modification robots.txt
- Interroger ChatGPT et Perplexity sur votre marque pour verifier que les citations apparaissent ou se maintiennent

Questions avancees sur le robots.txt et les crawlers IA

Les crawlers IA respectent-ils vraiment le robots.txt ?

Les grands acteurs (OpenAI, Anthropic, Google, Perplexity) declarent respecter le standard RFC 9309. Des tests independants de l'EFF et de NewsGuard en 2025 ont confirme que GPTBot, ClaudeBot et PerplexityBot respectent bien les directives Disallow. Des acteurs moins etablis (certains bots chinois) sont moins fiables. Si vous voulez une garantie absolue, la protection au niveau WAF reste la seule option.

Bloquer GPTBot empeche-t-il vraiment ChatGPT de citer mon site ?

Partiellement. GPT-5 a ete entraine sur des donnees anterieures a votre blocage — il connait peut-etre deja votre site. Bloquer GPTBot empeche les futures iterations d'etre entrainees sur vos nouvelles pages. Pour ChatGPT Search en temps reel, c'est OAI-SearchBot qui compte davantage. Bloquer GPTBot mais autoriser OAI-SearchBot est une strategie coherente pour les sites qui veulent du search sans entraînement.

Faut-il un robots.txt different par sous-domaine ?

Oui. Chaque sous-domaine a son propre robots.txt independant. Un robots.txt parfait sur votre domaine principal ne couvre pas blog.votre-domaine.com ni app.votre-domaine.com. Verifiez systematiquement robots.txt sur chaque sous-domaine que vous voulez faire indexer par les LLMs.

Quel est l'impact d'un robots.txt bloquant sur le score AEO ?

Massif. Dans le moteur de scoring aeotool.io, la categorie "robots/crawlabilite IA" represente 8 % du score global. Un blocage complet de GPTBot entraine une penalite de -15 points sur le score On-Site. Un blocage ClaudeBot entraine -8 points. Un blocage simultane de tous les bots IA peut faire passer un site de 60/100 a 25/100 sans aucune autre modification. C'est le critere avec le plus grand impact marginal par correction.

Conclusion : audit robots.txt + audit infra = visibilité IA

Le robots.txt est la première brique de votre stratégie AEO. Mal configure, il rend tout le reste inutile. Pour la majorite des sites, la bonne stratégie est d'autoriser tous les bots IA majeurs explicitement, de vérifier qu'aucune règle infrastructure ne bloque, et de tester après chaque modification. C'est l'optimisation la plus rapide et la plus rentable de tout l'arsenal AEO. Verifiez votre robots.txt aujourd'hui, vous trouverez peut-être la raison pour laquelle vous n'etes pas cite.