Indexation : pourquoi Google connaît votre site mais ne l'affiche pas ?
L’indexation, c’est le moment où Google décide si votre page mérite une place dans son catalogue de résultats. Après avoir crawlé votre site (visité vos pages), Google analyse le contenu et choisit de l’archiver ou non. Si votre page n’est pas indexée, elle n’apparaît nulle part : ni sur Google, ni dans les réponses de ChatGPT ou Perplexity. Selon une étude de 16 millions de pages (IndexCheckr, 2025), 62% des pages web ne sont jamais indexées.
Pourquoi l’indexation compte pour votre entreprise ?
Vous avez payé pour un site de 15 pages. Vous avez rédigé du contenu pour chaque service. Mais quand vous cherchez votre entreprise sur Google, certaines pages n’apparaissent pas.
Le problème n’est peut-être pas votre contenu. C’est que Google a décidé de ne pas l’archiver.
Chaque page non indexée, c’est une porte d’entrée fermée. Un client qui cherche exactement votre service ne vous trouvera pas. Et pendant ce temps, votre concurrent dont les pages sont toutes indexées capte ces recherches à votre place.
Le pire ? Vous ne le savez même pas. Sans vérifier dans Google Search Console, vous pensez que tout fonctionne.
Comment Google décide d’indexer (ou pas) votre page ?
Le processus suit 3 étapes :
- Crawl : Googlebot visite votre page, suit les liens, lit le contenu
- Évaluation : Google analyse la qualité, l’originalité, la structure. Le contenu apporte-t-il quelque chose que son index n’a pas déjà ?
- Décision : la page entre dans l’index (elle peut apparaître dans les résultats) ou elle est rejetée
Le temps d’indexation varie. Un site établi avec du trafic régulier voit ses nouvelles pages indexées en quelques heures à quelques jours. Un site tout neuf ? Plusieurs semaines (Google, John Mueller). La raison numéro 1 de non-indexation selon Google Search Central : le site est simplement trop récent.
Pour myfid, le cabinet comptable que j’accompagne, je gère 250+ pages de contenu. À cette échelle, chaque nouvelle page doit être structurée pour passer le filtre de Google : contenu unique, bon maillage interne, pas de duplication. Sinon, Google visite la page mais refuse de l’archiver.
Dans Google Search Console, vous pouvez voir exactement quelles pages sont indexées et lesquelles ne le sont pas. Deux statuts à surveiller :
- “Discovered - currently not indexed” : Google connaît l’URL mais ne l’a même pas visitée. Souvent un problème de maillage interne ou de priorité.
- “Crawled - currently not indexed” : Google a visité la page mais a décidé de ne pas l’archiver. C’est un signal de qualité insuffisante.
Les seuils de qualité : le filtre invisible de Google
Google ne décide pas d’indexer au hasard. Plusieurs brevets publics décrivent un système de site quality score avec des seuils chiffrés en interne : le patent US9031929B1 “Site quality score” et le patent US9002832B1 “Classifying sites as low quality sites” expliquent qu’une page ou un site est classé en “low quality” si son score tombe sous un certain seuil. Une fois classé bas, l’indexation devient laborieuse : les nouvelles pages mettent des semaines à entrer dans l’index, ou n’y entrent jamais.
Le SEO turc Koray Tuğberk Gübür a vulgarisé cette mécanique. Son idée centrale, reprise par beaucoup de consultants techniques : une page peut être “good enough to be indexed, but not good enough to be served”. Google l’archive, mais ne l’affichera jamais à personne. Et si trop de pages tombent dans cette zone grise, le site entier bascule sous le quality threshold, et l’indexation se dégrade partout.
Le point qui passe sous le radar de la plupart des PME : Google calcule un score au niveau du site, pas uniquement page par page. Une page faible isolée ne plombe rien. Vingt pages faibles sur un site de trente, si. C’est cette logique qui rend l’indexation non-linéaire : on peut très bien publier une page parfaite qui ne s’indexe pas, simplement parce que la moyenne du site est tombée sous le seuil.
Crawl, indexation, positionnement : ne pas confondre
Crawl vs indexation : le crawl, c’est la visite. L’indexation, c’est l’archivage. Google peut visiter votre page et décider qu’elle ne mérite pas sa place dans l’index. Une page crawlée n’est pas forcément indexée.
Indexation vs positionnement : être dans l’index ne veut pas dire être en première page. Le positionnement dépend de la qualité du contenu, de l’autorité de votre site et de la concurrence. L’indexation est juste le ticket d’entrée.
La fausse bonne idée : soumettre une URL dans Google Search Console et croire que c’est réglé. La soumission est un signal envoyé à Google, pas un ordre. Google décide ensuite si le contenu mérite sa place. J’ai vu des clients soumettre la même page 10 fois sans résultat, alors que le vrai problème était un contenu trop mince ou un doublon d’une autre page.
Google a crawlé votre page mais refuse de l’indexer. Le problème vient-il du contenu ou de la technique ? Souvent les deux. Un contenu trop similaire à une autre page de votre site ET un maillage interne faible forment le combo le plus fréquent.
Ce que ça change en 2026
L’indexation n’est plus un acquis. Google a durci ses critères. En mai 2025, une purge massive a retiré de l’index des millions de pages jugées de faible qualité, en particulier du contenu généré par IA sans apport humain.
Le chiffre est parlant : selon une étude de 16 millions de pages (IndexCheckr / Search Engine Journal, 2025), 62% des pages web ne sont jamais indexées par Google. Et parmi celles qui le sont, 21% finissent par être désindexées dans les mois qui suivent.
L’indexation ne concerne plus seulement Google. ChatGPT, Perplexity, Gemini ont leurs propres systèmes. Mais ils s’appuient en grande partie sur l’index de Google et de Bing. Une page que Google refuse d’indexer a très peu de chances d’être citée par une IA.
Votre page est indexée par Google mais invisible sur ChatGPT. Est-ce le même problème ? Pas exactement. Les IA ont leurs propres critères de sélection (fraîcheur, structure, autorité). Mais l’indexation Google reste le premier filtre. Si vous ne passez pas celui-là, vous ne passerez pas les suivants. C’est d’ailleurs ce que vérifie notre outil votre site est-il prêt pour l’IA ?.
Contenu IA en masse : le signal qui fait décrocher votre indexation
Publier 200 articles générés par IA en trois mois pour “couvrir le sujet” est aujourd’hui la pire stratégie possible. Google a classé cette pratique comme scaled content abuse dans ses policies de spam (mars 2024), et les Quality Rater Guidelines de janvier 2025 demandent explicitement aux raters de détecter le contenu auto-généré et de le noter bas.
Sur le terrain, ça se mesure. Une analyse Rankability de 2025 montre que 83% des pages en top 3 Google sont écrites ou lourdement éditées par des humains. Les pages 100% IA sans valeur ajoutée se font désindexer en masse, particulièrement sur les mots-clés concurrentiels. La purge de mai 2025 a retiré des millions de pages dans cette catégorie.
Le problème n’est pas l’IA en soi. C’est le volume sans contrôle. Si votre site publie 10 pages par semaine sans relecture humaine, sans angle propre, sans preuve de terrain, Google finit par interpréter le signal : ce site produit du bruit. Et quand le score descend sous le quality threshold vu plus haut, l’indexation du site entier ralentit, même pour les pages légitimes.
Chez ascense, j’utilise Claude pour accélérer la recherche et structurer des drafts. Mais chaque page qui sort passe en révision humaine, est contextualisée avec des cas clients réels, ancrée dans le terrain suisse romand. C’est la condition pour rester au-dessus du seuil.
Content pruning : supprimer des pages pour faire remonter le trafic
Ça paraît contradictoire, mais c’est documenté par plusieurs cas publics : supprimer, rediriger ou fusionner des pages de faible qualité fait remonter le trafic organique global.
Les cas mesurés :
- CNET (2024) : après suppression de plusieurs centaines de milliers de pages anciennes et faibles, le trafic organique du site a grimpé de 29%.
- HomeScienceTools (étude Inflow) : 64% de hausse de revenu organique après un pruning ciblé sur les pages produits et catégories peu performantes.
- Moyenne observée sur les e-commerce : 5 à 20% des pages peuvent être désindexées lors d’un audit sans perte, avec un lift positif dans la majorité des cas.
Deux raisons derrière ces résultats. D’abord le crawl budget : Googlebot visite votre site pour un temps limité. Si 60% de vos pages sont mortes, Google gaspille son temps dessus au lieu de re-crawler vos pages utiles. Ensuite le score de qualité global : en retirant les pages faibles, la moyenne du site remonte, et vous repassez au-dessus du quality threshold.
Les candidats au pruning sur un site de PME :
- Pages avec zéro trafic depuis 12 mois et aucun backlink
- Thin content de moins de 300 mots sans valeur ajoutée
- Pages qui cannibalisent (deux pages qui traitent le même sujet, Google n’indexe qu’une seule version)
- Articles obsolètes que plus personne ne lit
- Tags et catégories générées automatiquement par le CMS sans contenu propre
Trois options possibles pour chaque page identifiée :
- Supprimer si aucune valeur, aucun backlink, aucun trafic
- Rediriger en 301 vers une page proche plus complète, quand il reste quelques backlinks ou un peu de trafic
- Fusionner deux ou trois pages faibles en une seule page solide et approfondie
Pour myfid, j’ai déjà passé plusieurs cycles de pruning : réduire un silo trop dispersé de 80 pages thématiques en 30 pages plus denses et mieux maillées. Les 30 pages finales se positionnent mieux que les 80 précédentes. Ça passe toujours mal en discussion initiale (“on va enlever des pages ?”), ça se défend toujours bien sur les chiffres trois mois plus tard.
Google Search Console et IndexNow : forcer l’indexation quand c’est justifié
Quand vous publiez une page que vous voulez signaler vite, deux outils existent :
- Google Search Console : Inspection d’URL > “Demander l’indexation”. Valable uniquement pour Google. Limite d’environ 10 à 20 demandes par jour. Utile après publication, après mise à jour majeure, ou quand une page est orpheline le temps que le maillage rattrape.
- IndexNow : un protocole ouvert soutenu par Bing, Yandex, Seznam et Naver. Vous pingez une URL via une API, et ces moteurs viennent crawler dans l’heure. Compatible avec la plupart des CMS modernes via plugin ou intégration directe.
Pourquoi IndexNow compte même si vous ne visez pas Bing directement : ChatGPT s’appuie sur l’index Bing pour son web browsing. Une page non indexée sur Bing a beaucoup moins de chances d’être citée par ChatGPT. Google a annoncé qu’il ne supporte pas officiellement IndexNow, mais rien n’empêche de l’utiliser en parallèle de Search Console.
Le piège classique : croire qu’une soumission manuelle règle un problème d’indexation. Si Google refuse d’indexer votre page parce qu’il la juge faible, la soumettre 50 fois ne changera rien. Je vois des clients passer des heures dans Search Console à re-soumettre les mêmes URLs, alors que le vrai problème est dans le contenu ou dans le maillage interne.
La bonne utilisation : soumettre une fois, signaler l’existence, puis laisser Google décider. Si la page n’est pas indexée 2 à 3 semaines plus tard, le problème n’est pas la soumission.
Mauvaise indexation : un symptôme, pas une maladie
Si Google refuse d’indexer vos pages de façon récurrente, c’est un message. Pas un bug à contourner.
Les causes qui se cachent derrière un “Crawled - currently not indexed” qui persiste :
- Qualité du contenu : pages trop courtes, peu uniques, sans angle propre, qui répètent ce qu’on trouve déjà sur 50 autres sites.
- Autorité perçue : site jeune, peu de backlinks, peu de signaux de confiance, pas de preuves d’expertise. Le E-E-A-T (Experience, Expertise, Authoritativeness, Trust) s’affiche en creux dans votre cas.
- Cohérence thématique : vous publiez sur 15 sujets sans ligne directrice. Google ne sait pas sur quoi vous êtes légitime, donc il n’accorde pas la place dans l’index.
- Structure interne : maillage faible, pages orphelines, hiérarchie floue qui empêche Googlebot de comprendre l’importance relative de vos pages.
La tentation naturelle : re-soumettre en boucle, ajouter une date récente au contenu pour faire croire à une mise à jour, pinger via IndexNow dix fois par jour. Ça ne marche pas, ou ça marche 48 heures avant que Google désindexe à nouveau.
Ce qui marche : prendre 2 à 3 semaines pour auditer le contenu, supprimer ce qui n’apporte rien (content pruning), renforcer le reste, améliorer le maillage interne, publier moins mais mieux. C’est la logique du cocon sémantique que j’applique avec mes clients depuis ma formation avec Laurent Bourrelly en 2022. L’indexation suit la qualité, pas l’inverse.
Ce que l’indexation change pour l’acquisition client
Une PME avec 15-20 pages sur son site. Si 5 d’entre elles ne sont pas indexées, c’est 25 à 30% de votre surface de contact qui disparaît. Cinq pages, c’est peut-être votre page “tarifs”, votre page “contact”, ou la page de votre service principal.
Chaque page indexée est une requête Google potentielle. Un client qui tape “fiduciaire Lausanne” peut tomber sur votre page service. Un autre qui cherche “combien coûte un comptable” peut arriver via votre page tarifs. Mais seulement si ces pages sont dans l’index.
Ce que je vois sur le terrain, c’est que beaucoup de PME romandes ne vérifient jamais l’indexation de leurs pages. Elles publient du contenu et espèrent que Google fait le reste. Parfois oui. Parfois non.
À retenir
- L’indexation n’est pas automatique : 62% des pages ne sont jamais indexées. Publier ne suffit pas.
- Google calcule un score de qualité au niveau du site (brevets US9031929B1 et US9002832B1) : une page peut être refusée parce que la moyenne du site est sous le seuil.
- Un site établi est indexé en heures/jours, un nouveau site en semaines.
- Vérifiez dans Google Search Console > Indexation des pages. C’est gratuit et ça prend 2 minutes.
- Le maillage interne est votre meilleur allié : une page reliée à d’autres pages de votre site est découverte et indexée plus vite.
- Le content pruning fait remonter le trafic : CNET +29%, HomeScienceTools +64% après suppression des pages faibles.
- GSC et IndexNow accélèrent le signal, mais ne corrigent jamais un problème de qualité de fond.
Erreurs fréquentes :
- Publier du contenu IA en masse sans relecture humaine (scaled content abuse) : Google finit par désindexer tout le site
- Publier des pages sans aucun lien interne (pages orphelines que Google ignore)
- Avoir du contenu trop similaire entre plusieurs pages (Google n’indexe qu’une seule version)
- Laisser une directive
noindexdans le code sans le savoir (fréquent après une mise en ligne) - Soumettre des URLs en boucle dans Google Search Console au lieu de corriger le vrai problème
- Vouloir forcer l’indexation avant d’avoir nettoyé les pages faibles qui tirent tout le site vers le bas
Termes liés
- Crawl : l’étape qui précède l’indexation. Google doit d’abord visiter votre page avant de décider de l’archiver.
- Sitemap XML : la carte de votre site envoyée à Google. Aide les robots à trouver vos pages, mais ne garantit pas l’indexation.
- Maillage interne : les liens entre vos pages. Un bon maillage aide Google à découvrir et indexer toutes vos pages plus rapidement.
- SERP : la page de résultats Google. Seules les pages indexées peuvent y apparaître.
- Robots.txt : le fichier qui peut bloquer le crawl et donc empêcher l’indexation de certaines pages.
- Texte alternatif (alt text) : une image sans alt est indexée au rabais. Pour Google Images, c’est l’équivalent d’une page sans titre.