Robots.txt | Le fichier qui gouverne Google et les IA

Le robots.txt, c’est un fichier texte posé à la racine de votre site qui dit aux robots de Google et des IA où ils peuvent aller et où ils ne doivent pas aller. C’est un panneau de signalisation, pas un mur : les robots sérieux le respectent, les scrapers malveillants l’ignorent. Un seul caractère mal placé peut rendre votre site invisible sur Google et ChatGPT du jour au lendemain.

Pourquoi le robots.txt compte pour votre entreprise ?

Vous avez un site qui tourne. Vous ne l’avez jamais ouvert. Vous ne savez même pas qu’il existe. Et pourtant, c’est lui qui décide si Googlebot et GPTBot peuvent visiter vos pages.

Une ligne qui traîne depuis un ancien déploiement, un Disallow: / oublié dans le fichier, et votre site disparaît des résultats. Pas d’erreur affichée, pas de message d’alerte. Juste votre trafic qui plonge sans explication.

Pour une PME qui a investi plusieurs milliers de francs dans un site, le coût est réel. Vous payez l’hébergement, vous payez le contenu, vous payez le SEO, et rien n’apparaît. Vos concurrents qui ont un robots.txt propre récupèrent vos clients pendant que vous cherchez pourquoi votre fiduciaire Lausanne ne sort plus sur Google.

Comment ça fonctionne concrètement ?

Le robots.txt se trouve toujours à la même adresse : votre-site.ch/robots.txt. Tapez-la dans votre navigateur, vous pouvez le lire en 30 secondes.

Un robots.txt standard pour une PME contient 4 éléments :

User-agent: : quel robot est concerné (* veut dire tous les robots)
Disallow: : les zones interdites à la visite (dossiers admin, filtres, URLs techniques)
Allow: : les exceptions à l’intérieur d’une zone interdite
Sitemap: : l’URL absolue de votre sitemap XML, toujours en dernière ligne

Un exemple type pour un site WordPress de PME :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://votre-site.ch/sitemap.xml

Chez myfid, le cabinet comptable que j’accompagne depuis 2022, je gère 250+ pages. À cette échelle, le robots.txt sert à bloquer les URLs de filtres et les paramètres inutiles qui, sinon, gaspillent le budget de crawl de Googlebot.

Robots.txt, noindex, sitemap : ne pas confondre

Robots.txt vs noindex : le robots.txt empêche le crawl (la visite). La balise meta noindex empêche l’indexation (l’archivage dans les résultats). Deux choses complètement différentes.

Voilà le paradoxe. Si vous bloquez une page en robots.txt, Google ne la visite plus. Il ne voit donc pas votre noindex. Et il peut continuer à l’afficher dans les résultats avec la mention “Aucune information disponible pour cette page”, juste parce qu’un autre site fait un lien vers elle.

La documentation officielle de Google est claire sur ce point : “robots.txt is not a mechanism for keeping a web page out of Google” (Google Search Central, 2025).

Robots.txt vs sitemap XML : le robots.txt dit “n’allez pas là”. Le sitemap dit “allez plutôt ici”. Complémentaires, jamais en concurrence.

La fausse bonne idée : croire que Disallow: / protège un contenu sensible. C’est une convention respectée par les robots sérieux, pas une barrière technique. Tout scraper qui veut aspirer votre contenu l’ignore en une ligne de code.

Robots.txt ou meta noindex, lequel choisir pour cacher une page des résultats ? Toujours noindex, et laissez Google crawler la page pour qu’il voie la balise. Le robots.txt sert uniquement à économiser le budget crawl sur des zones sans intérêt.

Ce que ça change en 2026

Le robots.txt est passé d’un fichier technique obscur à un arbitrage stratégique. La raison : les bots IA.

Les user-agents à connaître aujourd’hui :

GPTBot (OpenAI, entraînement de ChatGPT)
ClaudeBot (Anthropic, entraînement de Claude), distinct de Claude-User (la lecture en temps réel, celui qui cite votre site dans une réponse Claude)
PerplexityBot (Perplexity)
Google-Extended (entraînement Gemini, séparé de Googlebot)
CCBot (Common Crawl, qui alimente de nombreux modèles)
OAI-SearchBot (OpenAI, la recherche en temps réel, distincte de GPTBot)

Le mouvement est massif. Selon Tollbit (rapport Q2 2025 relayé par The Register), 5,6 millions de sites bloquent GPTBot fin 2025, contre 3,3 millions six mois plus tôt. Selon Press Gazette (2025), 79 % des 100 plus grands sites d’actualité américains et britanniques bloquent au moins un bot d’entraînement IA.

Ma position chez ascense pour une PME suisse est tranchée.

Autorisez par défaut les bots lecteurs (PerplexityBot, Claude-User, OAI-SearchBot). Ce sont eux qui citent votre site quand un prospect demande “meilleur comptable à Sion” dans ChatGPT. Les bloquer, c’est couper une source de trafic qualifié.

Ne bloquez les bots d’entraînement (GPTBot, ClaudeBot, CCBot) que si votre contenu est payant et directement monétisé (paywall, formation payante). Pour la grande majorité des PME sans contenu payant, cette précaution ne change rien.

Bloquer GPTBot empêche-t-il ChatGPT de citer votre site en réponse ? Non. OAI-SearchBot et ChatGPT-User sont des agents séparés. Anthropic documente d’ailleurs 3 user-agents distincts (Anthropic Privacy Center) : ClaudeBot pour l’entraînement, Claude-User pour la lecture temps réel, Claude-SearchBot pour l’indexation.

Ce que ça change pour votre acquisition client

Un robots.txt mal configuré coûte cher et silencieusement. Vos pages ne sont pas crawlées, donc pas indexées, donc invisibles dans Google et les IA.

J’ai repris en 2025 un site d’une PME romande qui avait perdu une grosse part de son trafic après une refonte. Le problème tenait en deux caractères : un Disallow: / hérité du site de staging, jamais retiré au moment de la mise en prod. Correction : 2 minutes. Remontée dans l’index : 3 semaines. Coût des mois d’invisibilité : impossible à chiffrer précisément, mais les prospects perdus ne reviennent jamais.

C’est pour ça que le robots.txt fait partie des 3 premiers fichiers que je vérifie dans chaque audit SEO chez ascense. Avant de parler stratégie de contenu, avant de parler mots-clés, je m’assure que Google et les IA peuvent simplement visiter le site. 0 jargon, 100 % pédagogie.

À retenir

Le robots.txt contrôle le crawl, pas l’indexation. Pour cacher une page, utilisez la balise noindex.
Vérification en 30 secondes : tapez votre-site.ch/robots.txt dans votre navigateur.
4 directives principales : User-agent, Disallow, Allow, Sitemap.
Bots IA 2026 : autorisez les lecteurs (PerplexityBot, Claude-User, OAI-SearchBot), bloquez les bots d’entraînement uniquement si votre contenu est derrière un paywall.
Dernière ligne obligatoire : l’URL absolue de votre sitemap XML.

Voilà pour la théorie. Sur le terrain, ce sont presque toujours les mêmes erreurs que je retrouve.

Erreurs fréquentes à éviter :

Disallow: / hérité du staging après une mise en prod, le piège numéro un
Mauvais trailing slash : Disallow: /admin bloque aussi /administrator et /admin-page.html, alors que /admin/ ne bloque que le dossier
Bloquer les fichiers CSS et JS : Google voit votre site “cassé” et baisse sa note de qualité
Utiliser le robots.txt comme mécanisme de sécurité : c’est une convention, pas un mur

Termes liés

Crawl : l’exploration de votre site par les robots. Le robots.txt dit à ces robots où ils peuvent aller.
Indexation : l’archivage des pages dans le catalogue Google. Distincte du crawl, et ce que le robots.txt ne contrôle pas.
Maillage interne : les liens qui connectent vos pages. Un bon maillage rend la plupart des Disallow inutiles.
Cocon sémantique : l’architecture qui structure votre site. Le robots.txt en est la première pierre technique.
E-E-A-T : les signaux de qualité que lisent les IA. Si votre robots.txt bloque les bots IA, ces signaux ne leur parviennent jamais.

Guides associés

Audit SEO et IAComment faire un audit SEO de votre site ? La méthode manuelle, les outils gratuits et les limites de l'IA. Guide pratique pour PME suisses.SEO/GEOComment être recommandé par ChatGPT, Gemini et Perplexity ? Les 5 étapes concrètes pour rendre votre PME visible dans les réponses des IA en 2026.

Sources

Google Search Central — Introduction à robots.txt : developers.google.com/search/docs/crawling-indexing/robots/intro
Google Search Central — Bloquer l’indexation avec noindex : developers.google.com/search/docs/crawling-indexing/block-indexing
OpenAI — Documentation des bots : platform.openai.com/docs/bots
Anthropic — Centre de confidentialité : privacy.claude.com
The Register — Publishers say no to AI scrapers (décembre 2025) : theregister.com
Press Gazette — News sites blocking AI training bots (2025) : pressgazette.co.uk
Search Engine Land — Robots.txt and SEO 2026 : searchengineland.com