Crawl : si Google ne visite pas votre site, il n'existe pas
Le crawl, c’est l’exploration automatique de votre site par les robots de Google (Googlebot) et des IA comme ChatGPT ou Perplexity. Ces robots parcourent vos pages en suivant les liens, analysent le contenu, puis décident si chaque page mérite une place dans les résultats de recherche. Sans crawl, vos pages sont invisibles. Et la vitesse à laquelle votre serveur répond influence directement le nombre de pages explorées : plus votre site est rapide, plus Google en visite.
Pourquoi le crawl compte pour votre entreprise ?
Vous avez publié 15 pages sur votre site. Vous avez rédigé du contenu, ajouté des photos, structuré vos services. Mais quand vous tapez le nom de votre entreprise sur Google, certaines pages n’apparaissent pas.
Le problème n’est pas forcément votre contenu. C’est peut-être que Google n’a jamais visité ces pages.
Un robot ne lit pas votre site comme un humain. Il suit les liens, saute d’une page à l’autre, et décide combien de temps il passe chez vous en fonction de la réactivité de votre serveur. Si votre site met 2 secondes à répondre à chaque requête, Google visite moins de pages que si votre site répond en 200 millisecondes. Le calcul est simple : serveur lent = moins de pages explorées = moins de pages dans Google = moins de clients.
Comment ça fonctionne concrètement ?
Le crawl suit un processus en 3 temps :
- Découverte : Google trouve vos URLs via les liens internes de votre site, votre sitemap XML ou des liens depuis d’autres sites
- Exploration : Googlebot visite chaque page, lit le contenu, analyse la structure, vérifie la vitesse de chargement
- Décision : le contenu est envoyé au système d’indexation, qui choisit de l’ajouter ou non au catalogue Google
Le facteur souvent ignoré, c’est le TTFB (Time to First Byte) : le temps que met votre serveur à envoyer le premier octet de données au robot. Google utilise ce temps de réponse comme indicateur de santé de votre serveur. Un TTFB bas = serveur en forme = Google augmente le rythme de crawl. Un TTFB élevé = Google ralentit pour ne pas surcharger votre hébergement.
Les chiffres sont parlants. Au-delà de 400ms de TTFB, chaque tranche de 100ms supplémentaires réduit la fréquence de crawl de 12,4% (CaptainDNS, 2026). Un site qui passe de 800ms à 180ms de TTFB peut voir son nombre de pages crawlées multiplié par 4.
Pour myfid, le cabinet comptable que j’accompagne, je gère 250+ pages de contenu SEO. Avec un volume pareil, la performance du serveur est critique. Si l’hébergement ralentit, Google réduit ses visites, et les nouvelles pages mettent des semaines au lieu de quelques jours à apparaître dans les résultats.
Crawl, indexation, positionnement : ne pas confondre
Crawl vs indexation : le crawl, c’est la visite. L’indexation, c’est l’archivage. Google peut visiter une page et décider de ne pas l’indexer (contenu trop mince, doublon d’une autre page, directive noindex). Une page crawlée n’est pas forcément indexée.
Crawl vs positionnement : être dans l’index ne veut pas dire être bien classé. Le positionnement dépend de la qualité du contenu, de l’autorité de votre site, de la concurrence et de dizaines d’autres facteurs. Le crawl est juste la première étape.
La fausse bonne idée : croire que “mon site est rapide, donc il est bien référencé”. La vitesse aide Google à crawler plus de pages, ce qui augmente vos chances d’être indexé. Mais un site rapide avec un contenu vide reste un site vide. La performance est un prérequis, pas une garantie.
Pourquoi Google crawle votre site mais n’indexe pas certaines pages ? Plusieurs raisons : contenu trop similaire à une autre page, peu de maillage interne (page orpheline), contenu que Google juge insuffisant, ou directive technique qui bloque l’accès via le fichier robots.txt ou l’indexation via la balise meta noindex.
Ce que ça change en 2026
Google n’est plus le seul à crawler votre site. En 2026, GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot et d’autres visitent aussi vos pages pour alimenter leurs réponses. Le trafic des robots IA représente déjà environ un tiers du volume de crawl classique de Google, et il croît de 400% par an.
Ces robots IA respectent la même logique que Googlebot : un serveur lent, ils réduisent la fréquence de leurs visites. Les données le confirment : les sites avec un TTFB sous 200ms voient leur visibilité dans les réponses IA augmenter de 40 à 60% par rapport aux sites entre 500ms et 1 seconde (Am I Cited, 2026).
Votre fichier robots.txt bloque-t-il les robots IA sans que vous le sachiez ? C’est plus fréquent qu’on le croit. Certains hébergeurs ou plugins de sécurité bloquent GPTBot ou ClaudeBot par défaut. Résultat : ChatGPT ne peut pas lire votre site, donc il ne vous recommande jamais.
Chez ascense, je vérifie systématiquement que votre site est accessible à Google ET aux IA. C’est d’ailleurs l’un des points de notre outil votre site est-il prêt pour l’IA ?. Parce qu’être invisible sur ChatGPT en 2026, c’est comme être invisible sur Google il y a 10 ans.
Les principaux robots à connaître en 2026
Chaque service de recherche ou d’IA utilise souvent plusieurs robots, avec des rôles distincts. Un bot d’entraînement ne fait pas le même travail qu’un bot qui va chercher une page en direct pour répondre à un utilisateur. Vous pouvez les autoriser ou les bloquer indépendamment dans votre robots.txt.
| Service | Robot | À quoi il sert |
|---|---|---|
| Google Search | Googlebot | Crawl principal qui alimente l’index Google Search (Web, Images, Vidéos, Discover) |
| Google Search | Googlebot-Image | Variante dédiée aux images (Google Images, favicons, logos) |
| Google Search | Googlebot-News | Crawl des contenus éligibles à Google News |
| Google Ads | AdsBot-Google | Vérifie la qualité des pages de destination des annonces Google Ads |
| Google AI (Gemini) | Google-Extended | Jeton de contrôle pour l’entraînement de Gemini et Vertex AI. Ce n’est pas un crawler actif : c’est un drapeau appliqué au contenu déjà récupéré par Googlebot |
| Google AI (agent) | Google-Agent | Nouveau user-agent (mars 2026) qui identifie les agents IA de Google naviguant au nom d’un utilisateur (ex : Project Mariner) |
| Bing & Microsoft Copilot | Bingbot | Crawl principal de Bing, qui alimente aussi Microsoft Copilot et le chat Copilot |
| Bing Ads | AdIdxBot | Vérifie les pages de destination des annonces Bing Ads |
| Bing | BingPreview | Génère les aperçus (snapshots) affichés dans les SERP Bing |
| ChatGPT (OpenAI) | GPTBot | Collecte du contenu web pour l’entraînement des modèles OpenAI |
| ChatGPT (OpenAI) | OAI-SearchBot | Indexe le web pour la fonctionnalité de recherche de ChatGPT (citations dans les réponses) |
| ChatGPT (OpenAI) | ChatGPT-User | Fetch en direct quand un utilisateur (ou un GPT personnalisé) demande à ChatGPT de visiter une URL |
| Claude (Anthropic) | ClaudeBot | Collecte du contenu pour l’entraînement des modèles Claude |
| Claude (Anthropic) | Claude-SearchBot | Indexe et évalue la qualité des pages pour les réponses de type recherche de Claude |
| Claude (Anthropic) | Claude-User | Fetch en direct quand un utilisateur pose une question à Claude qui nécessite de consulter une page |
| Perplexity | PerplexityBot | Crawl qui alimente l’index de recherche Perplexity (citations dans les réponses) |
| Perplexity | Perplexity-User | Fetch en direct, déclenché par une question utilisateur qui nécessite de lire une URL spécifique |
La lecture utile pour une PME : les bots en -User (ChatGPT-User, Claude-User, Perplexity-User) sont ceux qui visitent votre site au moment exact où un prospect pose une question à une IA. Les bloquer, c’est renoncer à être cité en temps réel. Les bots d’entraînement (GPTBot, ClaudeBot, Google-Extended) sont un choix éditorial indépendant : vous pouvez les bloquer sans perdre la visibilité dans les réponses IA en direct.
Ce que le crawl change pour l’acquisition client
Chaque page que Google ne crawle pas est une porte d’entrée fermée. Vous avez investi du temps ou de l’argent pour créer cette page, mais si aucun robot ne la visite, personne ne la trouvera via la recherche.
Un serveur qui répond en moins de 200ms permet à Google de crawler plus de pages dans le même temps. Plus de pages crawlées = plus de pages indexées = plus de requêtes Google sur lesquelles vous apparaissez = plus de visiteurs = plus de clients potentiels.
C’est un effet de cascade. Et il marche aussi dans l’autre sens : un hébergement lent (en Suisse, j’utilise des serveurs locaux pour mes clients) peut freiner toute votre stratégie SEO sans que vous compreniez pourquoi vos nouvelles pages ne “prennent” pas sur Google. Ce que je vois sur le terrain, c’est que beaucoup de PME romandes paient un hébergement à 5 CHF/mois qui bride tout le reste.
À retenir
- Le crawl est la première étape pour apparaître sur Google. Pas de crawl = pas d’indexation = pas de visibilité
- Votre TTFB est votre ticket d’entrée : visez moins de 200ms pour un crawl fluide par Google et les IA
- Les robots IA crawlent aussi votre site (GPTBot, ClaudeBot, PerplexityBot). Les bloquer = renoncer à être recommandé par ChatGPT
- Le sitemap XML guide les robots vers vos pages importantes, surtout celles qui ne sont pas bien reliées par le maillage interne
Erreurs fréquentes :
- Bloquer Googlebot ou les robots IA par erreur dans le robots.txt (le site semble fonctionner normalement, mais il est invisible sur Google)
- Avoir des pages orphelines que seul le sitemap signale (Google les crawle moins souvent car aucun lien interne ne pointe vers elles)
- Un hébergement trop lent qui bride le crawl sans que personne ne s’en rende compte
Termes liés
- Indexation : l’étape qui suit le crawl. Google décide si votre page mérite d’être archivée dans son index. Sans crawl préalable, pas d’indexation possible.
- Robots.txt : le fichier qui dit aux robots quelles pages ils peuvent visiter ou non. Mal configuré, il peut bloquer le crawl de tout votre site.
- Sitemap XML : la carte de votre site que vous envoyez à Google. Il aide les robots à trouver vos pages, surtout les nouvelles ou les moins bien maillées.
- Core Web Vitals : les 3 métriques de performance web mesurées par Google. Le TTFB (temps de réponse du serveur) influence directement le volume de crawl.
- SERP : la page de résultats de Google. Le crawl est ce qui permet à vos pages d’y figurer.
- Crawler SEO desktop : un outil comme Screaming Frog simule un crawl complet de votre site pour remonter les mêmes erreurs que Googlebot rencontrerait (liens cassés, redirections en chaîne, balises manquantes, pages orphelines). C’est l’outil standard des audits techniques SEO.