robots.txt pour les bots IA : GPTBot, ClaudeBot, PerplexityBot et les autres
Le fichier robots.txt est le premier filtre que rencontrent les crawlers IA. Voici la configuration complète et a jour pour autoriser ou bloquer chaque bot en avril 2026.
Le fichier robots.txt est le premier filtre que rencontrent les crawlers IA quand ils visitent votre site. C'est aussi le point de blocage le plus frequent : selon nos audits, 38 % des sites français bloquent involontairement au moins un crawler IA majeur, ce qui les rend invisibles pour ChatGPT, Perplexity ou Claude. Voici la configuration complète et a jour pour avril 2026.
Que regardent les crawlers IA dans le robots.txt ?
Les crawlers IA respectent globalement le standard robots.txt tel que défini par l'IETF (RFC 9309). Chacun a son user-agent spécifique, et chacun lit votre fichier robots.txt avant de crawler vos pages. Une règle Disallow qui matche leur user-agent les arrêté net. Une règle Allow ou l'absence de Disallow les autorise.
Liste a jour des principaux bots IA en 2026
| User-agent | Operateur | Usage | Statut 2026 |
|---|---|---|---|
| GPTBot | OpenAI | Entrainement GPT | Actif |
| OAI-SearchBot | OpenAI | ChatGPT Search en temps reel | Actif |
| ChatGPT-User | OpenAI | Action utilisateur dans ChatGPT | Actif |
| ClaudeBot | Anthropic | Indexation pour Claude | Actif |
| anthropic-ai | Anthropic | Variante Claude | Legacy |
| PerplexityBot | Perplexity | Index Perplexity | Actif |
| Perplexity-User | Perplexity | Action utilisateur Perplexity | Actif |
| Google-Extended | Entrainement Gemini et AI Overviews | Actif | |
| Bytespider | ByteDance | Doubao, TikTok IA | Actif |
| CCBot | Common Crawl | Corpus public utilise par de nombreux LLMs | Actif |
| Meta-ExternalAgent | Meta | Llama, Meta AI | Actif |
| Amazonbot | Amazon | Alexa, Q Business | Actif |
| Applebot-Extended | Apple | Apple Intelligence | Actif |
Configuration recommandee : tout autoriser
Pour un site qui veut maximiser sa visibilité IA, la règle est simple : tout autoriser sauf cas exceptionnels. Voici la configuration de référence :
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
User-agent: Meta-ExternalAgent
Allow: /
Sitemap: https://votre-domaine.com/sitemap.xml
Astuce souvent oubliee : un Allow: / explicite est inutile au sens strict du standard, mais il sert de documentation et évité les ambiguites pour les futurs developpeurs qui modifieraient le fichier.
Configuration restrictive : bloquer l'entrainement, autoriser le search
Certains sites veulent un compromis : autoriser les crawlers de search en temps reel (qui generent du trafic) mais bloquer les crawlers d'entrainement (qui ne donnent rien en retour). Voici comment faire :
# Autoriser le search en temps reel
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
# Bloquer l'entrainement
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: anthropic-ai
Disallow: /
Attention : bloquer GPTBot tout en autorisant OAI-SearchBot est une stratégie defendable mais imparfaite. ChatGPT Search a tendance a privilegier les contenus que GPTBot a déjà indexes. Bloquer GPTBot reduit donc indirectement votre presence dans ChatGPT Search. Mesurez avant de décider.
Configuration paywall : bloquer tout sauf pages publiques
Pour un site media avec contenu premium, il est legitime de bloquer les crawlers IA sur les contenus payants tout en les laissant indexer les pages publiques.
User-agent: GPTBot
Disallow: /premium/
Disallow: /abonnes/
Allow: /
User-agent: ClaudeBot
Disallow: /premium/
Disallow: /abonnes/
Allow: /
User-agent: PerplexityBot
Disallow: /premium/
Disallow: /abonnes/
Allow: /
Comment vérifier que la configuration fonctionne ?
Trois méthodes de vérification :
- Test direct du fichier :
curl https://votre-domaine.com/robots.txtdoit retourner exactement le contenu attendu. - Test au niveau WAF/CDN : vérifier dans Cloudflare ou Vercel que les user-agents ne sont pas bloques par des règles WAF.
- Test de presence reelle : interroger ChatGPT et Perplexity sur votre marque ou contenu cible 14 jours après modification, et compter les citations.
Erreurs frequentes a éviter
Erreur 1 : oublier les variantes legacy
Anthropic utilise ClaudeBot aujourd'hui mais l'ancien anthropic-ai existe encore. OpenAI a trois user-agents distincts. Ne couvrez qu'un seul, c'est risquer d'en bloquer un autre.
Erreur 2 : Disallow * sans Allow spécifique
Une règle User-agent: * avec Disallow: / bloque tout le monde, y compris les bots IA. Si vous voulez bloquer la majorite mais autoriser les bons IA, mettez les règles spécifiques AVANT la règle catchall.
Erreur 3 : oublier la directive Sitemap
La directive Sitemap: a la fin du robots.txt est lue par les crawlers IA et acceleree leur decouverte de contenu. C'est gratuit, faites-le.
Erreur 4 : bloquer au niveau infrastructure
Cloudflare propose une option "Block AI Bots" en un clic. Beaucoup de sites l'ont activee sans s'en rendre compte. Verifiez dans votre dashboard Cloudflare que cette option est desactivee si vous voulez être cite par les LLMs.
L'erreur la plus couteuse de 2026 : avoir un robots.txt parfait mais un WAF Cloudflare qui bloque les user-agents IA au niveau réseau. Le crawler ne voit jamais votre robots.txt, il reçoit un 403 directement. Résultat : invisible total dans tous les LLMs, sans qu'aucun outil d'audit côté site ne le detecte.
Cas concret : -100 % de citations puis +400 % après correction
Un site media français a active "Block AI Bots" sur Cloudflare en janvier 2026 par defaut sans s'en rendre compte. Résultat : 0 citation Perplexity et ChatGPT pendant 6 semaines, alors qu'il etait habituellement cite 30 a 40 fois par mois. Après desactivation et correction du robots.txt, les citations sont remontees a 47 par semaine en moyenne, soit +400 % par rapport au point bas. Lecon : verifiez systematiquement la couche infrastructure en plus du fichier robots.txt.
Faut-il bloquer les bots IA pour proteger ses droits d'auteur ?
Question legitime mais souvent mal posee. Bloquer GPTBot ne supprime pas votre contenu de GPT-5 (il a déjà ete entraine sur Common Crawl). Cela empeche seulement les futures iterations d'être entrainees sur vos nouvelles pages. La vraie protection juridique est ailleurs : conditions d'utilisation explicites, mention "all rights reserved", action legale en cas d'usage non autorise. Le robots.txt est un signal, pas un bouclier juridique.
Configuration robots.txt par type de site : exemples complets
Voici trois configurations completes et commentees, adaptees aux situations les plus frequentes rencontrees lors des audits.
Configuration maximale : tout autoriser (site editorial ou e-commerce)
Pour un site qui veut maximiser sa visibilite dans tous les moteurs IA, la configuration la plus simple est la plus efficace. Inclut un commentaire explicatif pour les futurs developpeurs.
# Configuration AEO optimale - 2026
# Autoriser tous les moteurs de recherche et crawlers IA
User-agent: *
Allow: /
# OpenAI ChatGPT Search
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
# Anthropic Claude
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
# Perplexity
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
# Google AI
User-agent: Google-Extended
Allow: /
# Apple Intelligence
User-agent: Applebot-Extended
Allow: /
# Meta (Llama, Meta AI)
User-agent: Meta-ExternalAgent
Allow: /
Sitemap: https://votre-domaine.com/sitemap.xml
Configuration pour un site media avec paywall partiel
Autoriser l'indexation des articles gratuits, bloquer les contenus premium sur tous les bots IA, tout en maintenant la directive Sitemap pour la decouverte.
# Articles gratuits accessibles a tous les crawlers IA
User-agent: GPTBot
Disallow: /abonnes/
Disallow: /premium/
Allow: /
User-agent: ClaudeBot
Disallow: /abonnes/
Disallow: /premium/
Allow: /
User-agent: PerplexityBot
Disallow: /abonnes/
Disallow: /premium/
Allow: /
Sitemap: https://votre-domaine.com/sitemap.xml
Impact mesure des blocages et autorisations sur la citabilite IA
Les donnees issues des audits aeotool.io permettent de quantifier precisement l'effet du robots.txt sur la visibilite dans les moteurs de reponse IA.
- 38 % des sites français bloquent involontairement au moins un crawler IA majeur selon les audits aeotool.io en mars 2026.
- 0 citation pendant 6 semaines pour un site media qui avait active "Block AI Bots" Cloudflare par defaut, alors qu'il generait habituellement 30-40 citations/semaine.
- +400 % de citations en 4 semaines apres correction du robots.txt et desactivation du blocage Cloudflare pour ce meme site.
- -15 points sur 100 dans le score AEO aeotool.io pour un blocage complet de GPTBot. Un blocage simultane de tous les bots IA peut faire passer un site de 60/100 a 25/100.
- 5 sources de blocage possibles independamment du robots.txt : WAF Cloudflare, regles Vercel, headers X-Robots-Tag, IP filtering, CDN edge rules. Chacune peut bloquer un crawler a l'insu du webmaster.
- 2 a 3 semaines : delai observe avant que ChatGPT Search commence a citer un site apres autorisation effective de GPTBot (temps de recrawl et reindexation).
- 35 % de potentiel de citation perdu pour ChatGPT Search si le site n'est pas indexe par Bing, independamment du robots.txt.
Cas pratique : diagnostic et correction d'une invisibilite totale en 48 heures
Un editeur de contenus professionnels (B2B, 15 000 visiteurs/mois, 600 articles) signale en fevrier 2026 une chute soudaine des citations IA : de 45 citations/semaine a zero en l'espace de 10 jours. Le SEO Google est inchange, le trafic organique est stable. Cause suspectee : modification du robots.txt.
Diagnostic en 2 heures :
- Verification du robots.txt actuel :
curl https://domaine.com/robots.txt— robots.txt correct en apparence, GPTBot autorise. - Verification des headers :
curl -I -A "GPTBot" https://domaine.com/— retourne HTTP 403. Blocage au niveau infrastructure, pas robots.txt. - Verification Cloudflare : l'option "Bot Fight Mode" avait ete activee par un stagiaire lors d'un audit securite. Ce mode bloque automatiquement tous les bots consideres comme non-legitimes, y compris GPTBot selon la configuration par defaut de cette periode.
Correction en 30 minutes :
- Desactivation du Bot Fight Mode dans Cloudflare.
- Ajout d'une regle WAF explicite : autoriser GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot en whitelist.
- Verification avec curl -A pour chaque bot : tous retournent maintenant HTTP 200.
Resultats : premiere citation ChatGPT reapparue 9 jours apres la correction. Retour au niveau habituel (40+ citations/semaine) en 3 semaines. Lecon : toujours tester avec le user-agent du crawler, pas seulement lire le robots.txt.
Checklist robots.txt pour une visibilite IA maximale
Cette checklist couvre les verifications a effectuer sur le robots.txt et l'infrastructure pour garantir qu'aucun crawler IA n'est bloque.
- Verification du fichier robots.txt
curl https://votre-domaine.com/robots.txtretourne exactement le contenu attendu- Aucune règle
User-agent: *avecDisallow: /sans exceptions explicites - Tous les bots actifs couverts : GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot, anthropic-ai, PerplexityBot, Perplexity-User, Google-Extended
- Directive
Sitemap:presente a la fin du fichier
- Verification Cloudflare (si utilise)
- Option "Block AI Bots" desactivee dans Security settings
- Aucune règle WAF qui bloque les user-agents IA
- Aucune règle Rate Limiting qui bloque les crawlers (ils peuvent faire beaucoup de requetes en peu de temps)
- Verification Vercel/CDN (si utilise)
- Aucune regle de securite dans vercel.json qui bloque des user-agents
- Headers de securite (CSP, X-Robots-Tag) n'incluent pas de noindex/nofollow non desire
- Verification des headers HTTP
curl -I https://votre-domaine.com/ne retourne pas X-Robots-Tag: noindex- Reponse HTTP 200 et non 403/429 quand simule avec le user-agent GPTBot
- Test fonctionnel post-modification
- Attendre 14 jours apres chaque modification robots.txt
- Interroger ChatGPT et Perplexity sur votre marque pour verifier que les citations apparaissent ou se maintiennent
Questions avancees sur le robots.txt et les crawlers IA
Les crawlers IA respectent-ils vraiment le robots.txt ?
Les grands acteurs (OpenAI, Anthropic, Google, Perplexity) declarent respecter le standard RFC 9309. Des tests independants de l'EFF et de NewsGuard en 2025 ont confirme que GPTBot, ClaudeBot et PerplexityBot respectent bien les directives Disallow. Des acteurs moins etablis (certains bots chinois) sont moins fiables. Si vous voulez une garantie absolue, la protection au niveau WAF reste la seule option.
Bloquer GPTBot empeche-t-il vraiment ChatGPT de citer mon site ?
Partiellement. GPT-5 a ete entraine sur des donnees anterieures a votre blocage — il connait peut-etre deja votre site. Bloquer GPTBot empeche les futures iterations d'etre entrainees sur vos nouvelles pages. Pour ChatGPT Search en temps reel, c'est OAI-SearchBot qui compte davantage. Bloquer GPTBot mais autoriser OAI-SearchBot est une strategie coherente pour les sites qui veulent du search sans entraînement.
Faut-il un robots.txt different par sous-domaine ?
Oui. Chaque sous-domaine a son propre robots.txt independant. Un robots.txt parfait sur votre domaine principal ne couvre pas blog.votre-domaine.com ni app.votre-domaine.com. Verifiez systematiquement robots.txt sur chaque sous-domaine que vous voulez faire indexer par les LLMs.
Quel est l'impact d'un robots.txt bloquant sur le score AEO ?
Massif. Dans le moteur de scoring aeotool.io, la categorie "robots/crawlabilite IA" represente 8 % du score global. Un blocage complet de GPTBot entraine une penalite de -15 points sur le score On-Site. Un blocage ClaudeBot entraine -8 points. Un blocage simultane de tous les bots IA peut faire passer un site de 60/100 a 25/100 sans aucune autre modification. C'est le critere avec le plus grand impact marginal par correction.
Conclusion : audit robots.txt + audit infra = visibilité IA
Le robots.txt est la première brique de votre stratégie AEO. Mal configure, il rend tout le reste inutile. Pour la majorite des sites, la bonne stratégie est d'autoriser tous les bots IA majeurs explicitement, de vérifier qu'aucune règle infrastructure ne bloque, et de tester après chaque modification. C'est l'optimisation la plus rapide et la plus rentable de tout l'arsenal AEO. Verifiez votre robots.txt aujourd'hui, vous trouverez peut-être la raison pour laquelle vous n'etes pas cite.