
Peu de leviers techniques du référencement sont à la fois aussi importants et aussi mal compris que le budget de crawl. D'un côté, des guides qui en font une urgence pour n'importe quel site, sous peine de perdre des positions. De l'autre, la documentation de Google Search Central, qui le cantonne aux sites d'un million de pages. Ni l'alarme générale ni le seuil rassurant de Google ne rendent justice au sujet.
À partir de quand le budget de crawl devient-il réellement un problème ? Comment le rapport « Indexation des pages » de la Search Console le signale-t-il concrètement, sans qu'on ait à deviner ? Et une fois le doute levé, comment repérer, URL par URL, où le budget se dilue ?
Le vrai seuil se situe bien plus bas que le million de pages, et la Search Console le désigne déjà.
Le budget de crawl, c'est quoi
Le budget de crawl est l'ensemble des URLs que Google peut et veut explorer sur un site, sur une période donnée. Il ne se résume pas à un chiffre fixe : il naît de la rencontre entre deux forces, ce que le serveur du site tolère comme charge et ce que Google juge digne d'être exploré.
Google Search Central distingue clairement ces deux composantes. La première, la limite de capacité d'exploration, correspond au nombre de connexions parallèles que Googlebot peut ouvrir sans surcharger le serveur, ainsi qu'au délai entre deux requêtes. Un site rapide et stable voit cette limite monter ; un site lent ou qui renvoie des erreurs la voit descendre. La seconde, la demande d'exploration, dépend de la popularité des pages, de leur fraîcheur et de la taille perçue de l'inventaire : Google recrawle plus souvent ce qui bouge et ce qui compte.
Un point mérite d'être posé d'emblée, car tout le sujet en découle : explorer n'est pas indexer. Une page peut être crawlée sans jamais rejoindre l'index. Le budget de crawl décide de la première étape, pas de la seconde.
Pourquoi un crawl régulier compte, même pour vos vieilles pages
Le budget de crawl ne sert pas qu'à faire entrer de nouvelles pages dans l'index. Il commande aussi la vitesse à laquelle Google prend en compte ce que vous modifiez sur les pages déjà en ligne. Car Google ne voit vos changements qu'au moment où il repasse : entre deux explorations, une page reste figée, à ses yeux, dans sa version précédente.
Deux enjeux en découlent, souvent sous-estimés.
Le premier tient au contenu. Vous retravaillez une page pour mieux répondre à une requête, vous ajoutez une section, vous actualisez des données : tant que Googlebot n'est pas revenu, ces améliorations n'existent pas pour le classement. Une page rarement explorée met d'autant plus longtemps à voir ses optimisations porter leurs fruits.
Le second tient aux liens internes. Lorsqu'une page ancienne pointe, par un nouveau lien, vers une page stratégique souvent plus récente, ce lien ne transmet son PageRank qu'une fois la page source réexplorée. Une vieille page à forte autorité, mais rarement crawlée, retient l'élan qu'elle devrait donner à vos pages prioritaires : le maillage est en place, mais Google ne l'a pas encore vu.
C'est là que le budget de crawl cesse d'être une affaire de pages neuves. Quand il se resserre, ce sont justement vos pages anciennes et de longue traîne, celles qu'on oublie facilement, que Googlebot visite en dernier. Or ce sont elles qui portent du contenu à jour et qui alimentent le reste du site en PageRank. Les laisser sombrer dans un crawl rare, c'est priver vos pages stratégiques de leurs mises à jour et de leur autorité.
Est-ce vraiment votre problème ?
Pour la grande majorité des sites, la réponse est non. Google Search Central pose une règle simple pour trancher : « si vos pages semblent explorées le jour même de leur publication, vous n'avez pas besoin de ce guide ». Un site de quelques centaines de pages, techniquement propre, dont les nouveautés apparaissent dans l'index en quelques heures, n'a aucune raison de s'inquiéter de son budget de crawl. Si vos pages tardent à être indexées, le problème est presque toujours ailleurs : qualité, maillage interne, signaux de valeur. Pas le budget de crawl.
La ligne officielle de Google
La documentation réserve explicitement le sujet à trois profils : les sites de plus d'un million de pages au contenu qui change au moins une fois par semaine, les sites de plus de dix mille pages au contenu qui change quotidiennement, et les sites dont une part importante des URLs figure dans le statut « Détectée, actuellement non indexée » de la Search Console.
Pourquoi ce seuil est trompeur
Retenir « un million de pages » comme ligne de partage serait une erreur. Ce chiffre décrit le pire cas ; il n'est pas le point de bascule. En pratique, le budget de crawl devient un sujet bien plus tôt, autour de dix mille URLs, et parfois nettement en dessous dès que la structure du site se met à générer des URLs en masse.
C'est le point aveugle. Le déclencheur n'est pas le nombre de pages que vous avez écrites, c'est le nombre d'URLs que votre site rend explorables. Une boutique de trois mille produits paraît modeste. Mais si chaque combinaison de filtres, de tris et de facettes crée sa propre URL, la même boutique peut exposer cent mille URLs crawlables. Googlebot ne voit pas trois mille pages : il voit cent mille adresses à explorer, dont l'immense majorité ne mérite pas une visite.
Le vrai signal d'alerte
Le meilleur indicateur ne se lit pas dans le nombre de pages, mais dans la Search Console. Quand la part de vos URLs classées en « Détectée, actuellement non indexée » se met à grimper, c'est le symptôme direct d'un budget saturé : Google connaît ces adresses, mais ne trouve plus le temps de les explorer. Ce troisième profil, listé par Google lui-même, touche des sites bien plus petits que le million de pages. C'est lui qu'il faut surveiller, pas un compteur théorique.
Ce qui gaspille votre budget de crawl
Quand le budget de crawl est un vrai problème, il l'est rarement par manque de capacité. Il l'est parce qu'une part du budget part dans des URLs sans valeur. Google Search Central nomme précisément les grands postes de gaspillage.
Le contenu et les URLs en double viennent en tête : plusieurs adresses qui servent la même page dispersent le crawl au lieu de le concentrer. La navigation à facettes en est la source la plus courante sur les sites e-commerce, chaque filtre engendrant une URL de plus. S'ajoutent le défilement infini qui duplique le contenu déjà lié, les pages en Soft 404 qui répondent 200 tout en étant vides aux yeux de Google, les chaînes de redirections qui allongent chaque récupération, et les pages inutiles ou supprimées que Googlebot continue de solliciter.
Le principe commun est simple : chaque requête que Googlebot dépense sur une URL sans intérêt est une requête qu'il ne dépense pas sur une page qui compte.
Le piège du noindex
Le réflexe paraît logique : pour empêcher Google de perdre du temps sur des pages secondaires, on les passe en noindex. C'est précisément le piège. La balise noindex n'économise aucun budget de crawl.
Google Search Central est explicite sur ce point : n'utilisez pas le noindex dans ce but, car Google va tout de même requêter la page, puis l'écarter en découvrant la balise, gaspillant ainsi du temps d'exploration. Autrement dit, la page est crawlée avant d'être exclue. Sur une poignée d'URLs, c'est indolore ; sur des dizaines de milliers, le noindex ne fait que déplacer le gaspillage.
La même logique vaut pour une autre fausse bonne idée : se servir du robots.txt pour « réallouer temporairement » le budget vers d'autres pages. Google le déconseille formellement. Le robots.txt sert à bloquer durablement l'exploration d'URLs qu'on ne veut pas voir crawlées du tout, pas à jouer sur la répartition du budget d'un jour à l'autre. Pour bien distinguer ces mécanismes, l'article sur le statut « Exclue par la balise noindex » et celui sur les pages « Bloquées par le fichier robots.txt » détaillent chacun leur cas.
Le pont vers vos statuts Search Console
Le budget de crawl reste une notion abstraite tant qu'on ne le relie pas à ce que la Search Console affiche réellement. Or deux statuts du rapport « Indexation des pages » sont la traduction directe d'un budget sous tension, et ce sont eux qu'il faut lire.
« Détectée, actuellement non indexée » signifie que Google connaît l'URL mais ne l'a pas encore explorée. Le budget n'a pas encore été dépensé dessus : l'adresse attend son tour dans la file, un tour qui n'arrive pas quand le budget part ailleurs. C'est le symptôme le plus net d'un budget de crawl saturé.
« Explorée, actuellement non indexée » raconte l'inverse. Ici, le budget a bien été dépensé : Google a lu la page, mais n'a pas jugé utile de la retenir. C'est du budget consommé pour rien, généralement sur des pages jugées trop faibles ou trop proches d'autres déjà indexées. Repérer ces deux statuts et mesurer leur poids, c'est passer d'un concept flou à un diagnostic concret.
Diagnostiquer à l'échelle : où fuit le budget, URL par URL
Encore faut-il pouvoir lire ces statuts au bon niveau. Le rapport « Statistiques d'exploration » de la Search Console donne une vue agrégée précieuse : nombre de requêtes par jour, temps de réponse moyen, codes HTTP. Mais il s'arrête là. Il ne dit pas quelles URLs Googlebot néglige, ni depuis quand, ni lesquelles engloutissent le budget. Pour cela, il faut descendre au grain de l'URL, et l'outil d'Inspection d'URL ne traite qu'une page à la fois.
IndexProbe est la version en masse de cet outil d'Inspection d'URL. Vous lui confiez la liste des URLs à surveiller, par sitemap, CSV, copier-coller, ou en la constituant directement depuis votre Search Console (par clics, impressions ou pattern d'URL), et il interroge pour chacune l'API officielle de la Search Console. Trois données rendent la fuite de budget lisible page par page : la date du dernier passage de Googlebot, le statut du robots.txt, et le statut d'indexation détaillé. Vous isolez d'un filtre les URLs non explorées depuis plus de trente jours, celles qui restent en « Détectée, actuellement non indexée », ou les patterns de facettes qui monopolisent le crawl.
IndexProbe n'est pas un crawler : il ne découvre aucune URL en suivant des liens, il inspecte uniquement la liste que vous fournissez ou que vous constituez depuis la GSC. Là où l'inspecteur de la Search Console impose une URL à la fois, vous obtenez le même verdict officiel, daté, sur toute votre liste, dans un tableau filtrable que vous relancez quand vous le souhaitez.
💡 Le budget de crawl ne se diagnostique pas dans un agrégat : il se lit URL par URL. Quelles pages Googlebot ignore, depuis quand, et lesquelles gaspillent le crawl. Découvrir IndexProbe en accès anticipé →
Ce qui aide vraiment (et ce qui ne sert à rien)
Une fois les fuites repérées, la liste des actions efficaces est courte et bien documentée. Google Search Central recommande de consolider les contenus en double, de bloquer via le robots.txt les URLs sans valeur pour l'exploration, de renvoyer un franc 404 ou 410 sur les pages définitivement supprimées, de maintenir un sitemap à jour avec des lastmod fiables, d'éviter les chaînes de redirections et de garder des pages rapides à charger. Un site plus léger à explorer laisse Googlebot atteindre plus de pages utiles dans le même temps.
À l'inverse, plusieurs réflexes répandus n'apportent rien. La directive crawl-delay du robots.txt, souvent citée pour « ménager » le serveur, est purement et simplement ignorée par Google, qui ne la lit pas. Le robots.txt employé pour réallouer le budget d'un jour à l'autre est déconseillé, comme vu plus haut. Et le noindex posé pour économiser du crawl produit l'effet inverse. La règle de tri est simple : ce qui réduit le volume d'URLs inutiles aide ; ce qui prétend « négocier » avec Googlebot ne sert à rien. Le statut « Indexée malgré le blocage par le robots.txt » rappelle d'ailleurs qu'un blocage d'exploration n'est pas un blocage d'indexation.
Et les crawlers IA en 2026 ?
Un facteur nouveau s'invite dans l'équation : les robots des moteurs génératifs. GPTBot, ClaudeBot, PerplexityBot et leurs équivalents explorent désormais le web pour leur propre compte, et ce trafic pèse sur les serveurs au même titre que celui de Googlebot.
La nuance à garder en tête : cette pression est réelle, mais elle ne se confond pas avec le budget de crawl de Google. Ces robots se pilotent séparément, via le robots.txt, selon qu'on souhaite ou non leur laisser l'accès. Les inclure dans un raisonnement sur le budget de crawl Googlebot ne ferait qu'embrouiller le diagnostic. À traiter comme une question distincte, sur la base de vos propres logs serveur.
Vérifier que la correction a payé
Une correction de budget de crawl ne se constate pas le jour où on la déploie, mais le jour où Google en tient compte. La mesure se fait dans le temps, en comparant deux analyses de la même liste d'URLs : avant et après. Le bon indicateur n'est pas un chiffre isolé, c'est un mouvement. La part de « Détectée, actuellement non indexée » recule-t-elle ? La proportion de pages explorées sous trente jours remonte-t-elle ?
Ce suivi vaut aussi comme garde-fou. Un budget de crawl assaini peut se dégrader de nouveau après une refonte, l'ajout d'un nouveau jeu de facettes ou une régression technique. Suivre régulièrement la même liste transforme une dérive silencieuse en signal repérable, avant qu'elle ne se traduise par des pages qui sortent de l'index. Et si la découverte de vos nouvelles pages reste le point de blocage, l'article sur comment soumettre son site à Google complète la démarche côté indexation.
💡 Le budget de crawl est un vrai levier, mais pas l'affaire de tous les sites, et il pèse bien plus bas que le million de pages. Pour ceux qu'il concerne, la Search Console montre déjà où il fuit. IndexProbe vous donne, pour toute la liste que vous fournissez ou constituez depuis la GSC, la date du dernier crawl et le statut d'indexation officiel par URL, et reste répétable pour suivre chaque évolution d'une analyse à l'autre. Tester IndexProbe en accès anticipé →
Questions fréquentes
À partir de combien de pages faut-il s'inquiéter de son budget de crawl ?
Il n'y a pas de seuil absolu, mais une heuristique utile : le budget de crawl devient un vrai sujet autour de dix mille URLs, et parfois plus tôt dès que des facettes, des paramètres ou des filtres font gonfler le nombre d'URLs explorables. Le chiffre d'« un million de pages » cité par Google décrit le pire cas, pas le point de bascule. Le meilleur indicateur reste la part de vos URLs en « Détectée, actuellement non indexée ».
Le budget de crawl influence-t-il le référencement ?
Indirectement. Le crawl n'est pas un signal de positionnement en soi : Google ne classe pas mieux une page parce qu'elle est explorée souvent. Mais une page que Googlebot n'explore pas ne peut pas être indexée, et une page non indexée ne se positionne sur rien. Un budget de crawl mal réparti prive donc vos pages utiles de la première marche.
Comment connaître son budget de crawl ?
Le rapport « Statistiques d'exploration » de la Search Console donne la vue agrégée : requêtes par jour, temps de réponse, codes HTTP. Pour savoir quelles URLs précises sont explorées, et à quelle date, il faut descendre au niveau de chaque URL, soit avec l'outil d'Inspection d'URL (une page à la fois), soit avec une inspection en masse via l'API de la Search Console.
Le noindex économise-t-il du budget de crawl ?
Non. Google requête la page malgré tout, puis l'écarte en découvrant la balise noindex. La page est donc crawlée avant d'être exclue, ce qui consomme du budget d'exploration au lieu d'en préserver. Pour empêcher réellement l'exploration d'une URL, c'est le robots.txt qu'il faut utiliser, pas le noindex.
Le robots.txt permet-il de réallouer le budget de crawl vers d'autres pages ?
Non, et Google le déconseille. Le robots.txt sert à bloquer durablement l'exploration d'URLs qu'on ne veut pas voir crawlées, pas à répartir le budget d'un jour sur l'autre. Bloquer une URL la retire de la file d'exploration, mais ne « transfère » pas mécaniquement son budget vers d'autres pages.
La directive crawl-delay fonctionne-t-elle avec Google ?
Non. Googlebot ne lit pas la directive crawl-delay du robots.txt et l'ignore entièrement. Pour ajuster le rythme d'exploration, Google s'appuie sur la santé du serveur (temps de réponse, erreurs), pas sur une valeur déclarée. La directive reste prise en compte par d'autres moteurs, mais pas par Google. Le détail de la directive (qui la lit encore, quoi faire à la place) : voir « Bloquée par le fichier robots.txt ».
Mon petit site doit-il s'inquiéter du budget de crawl ?
Non, dans la quasi-totalité des cas. Un site de quelques centaines de pages, techniquement propre, dont les nouveautés apparaissent dans l'index en quelques heures, n'a aucune raison de s'en préoccuper. Si des pages tardent à être indexées, le problème est presque toujours ailleurs : qualité du contenu, maillage interne ou signaux de valeur.