
Pocas palancas técnicas del SEO son a la vez tan importantes y tan mal comprendidas como el presupuesto de rastreo. Por un lado, guías que lo convierten en una urgencia para cualquier sitio, con la amenaza de perder posiciones si lo descuidas. Por otro, la documentación de Google Search Central, que reserva el asunto para los sitios de más de un millón de páginas. Ni la alarma general ni el umbral tranquilizador de Google le hacen justicia al tema.
¿A partir de cuándo se convierte el presupuesto de rastreo en un problema real? ¿Cómo lo señala en concreto el informe «Indexación de páginas» de Search Console, sin que tengas que adivinarlo? Y una vez despejada la duda, ¿cómo detectar, URL por URL, dónde se está diluyendo el presupuesto?
El umbral real está muy por debajo del millón de páginas, y Search Console ya lo señala.
Qué es el presupuesto de rastreo
El presupuesto de rastreo es el conjunto de URLs que Google puede y quiere rastrear en un sitio durante un periodo determinado. No se reduce a una cifra fija: surge del encuentro entre dos fuerzas, lo que el servidor del sitio admite como carga y lo que Google considera digno de ser rastreado.
Google Search Central distingue con claridad estos dos componentes. El primero, el límite de capacidad de rastreo, es el número de conexiones paralelas que Googlebot puede abrir sin sobrecargar el servidor, más el intervalo entre dos peticiones. Un sitio rápido y estable ve subir ese límite; un sitio lento, o que devuelve errores, lo ve bajar. El segundo, la demanda de rastreo, depende de la popularidad de las páginas, de su frescura y del tamaño percibido del inventario: Google vuelve a rastrear con más frecuencia lo que cambia y lo que importa.
Conviene dejar sentado un punto desde el principio, porque de él depende todo lo demás: rastrear no es indexar. Una página puede rastrearse y no llegar nunca al índice. El presupuesto de rastreo decide el primer paso, no el segundo.
Por qué un rastreo regular importa, incluso para tus páginas antiguas
El presupuesto de rastreo no sirve solo para meter páginas nuevas en el índice. También determina la velocidad a la que Google registra los cambios que haces en las páginas ya publicadas. Google solo ve tus modificaciones cuando vuelve a pasar: entre dos rastreos, una página se queda congelada, a sus ojos, en su versión anterior.
De ahí se derivan dos consecuencias, a menudo infravaloradas.
La primera tiene que ver con el contenido. Reescribes una página para responder mejor a una búsqueda, añades una sección, actualizas los datos: mientras Googlebot no vuelva, nada de eso existe para el posicionamiento. Una página que se rastrea rara vez tarda mucho más en ver cómo sus mejoras dan fruto.
La segunda tiene que ver con los enlaces internos. Cuando una página antigua apunta, mediante un enlace nuevo, hacia una página estratégica que suele ser más reciente, ese enlace solo transmite su PageRank una vez que la página de origen vuelve a rastrearse. Una página antigua con mucha autoridad, pero rastreada rara vez, retiene el impulso que debería dar a tus páginas prioritarias: los enlaces internos están puestos, pero Google aún no los ha visto.
Ahí es donde el presupuesto de rastreo deja de ser un asunto de páginas nuevas. Cuando se ajusta, las últimas que visita Googlebot son precisamente tus páginas antiguas y de cola larga, esos rincones del sitio que se olvidan con facilidad. Y son ellas las que llevan contenido actualizado y las que alimentan de PageRank al resto del sitio. Dejarlas caer en un rastreo escaso es privar a tus páginas estratégicas de sus actualizaciones y de su autoridad.
¿Es de verdad tu problema?
Para la inmensa mayoría de los sitios, la respuesta es no. Google Search Central propone una prueba sencilla para decidirlo: «si tus páginas se rastrean el mismo día en que se publican, no necesitas esta guía». Un sitio de unos cientos de páginas, técnicamente limpio, cuyas novedades aparecen en el índice en cuestión de horas, no tiene por qué preocuparse por su presupuesto de rastreo. Si tus páginas tardan en indexarse, el problema casi siempre está en otra parte: calidad, enlazado interno, señales de valor. No en el presupuesto de rastreo.
La postura oficial de Google
La documentación reserva el asunto de forma explícita a tres perfiles: los sitios de más de un millón de páginas cuyo contenido cambia al menos una vez por semana, los sitios de más de diez mil páginas cuyo contenido cambia a diario, y los sitios en los que una parte importante de las URLs figura en el estado «Descubierta, actualmente no indexada» de Search Console.
Por qué ese umbral engaña
Tomar «un millón de páginas» como línea divisoria sería un error. Esa cifra describe el peor de los casos; no es el punto de inflexión. En la práctica, el presupuesto de rastreo se vuelve un asunto real mucho antes, en torno a las 10.000 URLs, y a veces bastante por debajo en cuanto la estructura del sitio empieza a generar URLs en masa.
Ese es el punto ciego. El detonante no es el número de páginas que has escrito, sino el número de URLs que tu sitio hace rastreables. Una tienda de 3.000 productos parece modesta. Pero si cada combinación de filtros, ordenaciones y facetas crea su propia URL, esa misma tienda puede exponer 100.000 URLs rastreables. Googlebot no ve 3.000 páginas: ve 100.000 direcciones que rastrear, y la inmensa mayoría no merece una visita.
La verdadera señal de alerta
El mejor indicador no está en el número de páginas, sino en Search Console. Cuando la proporción de tus URLs clasificadas como «Descubierta, actualmente no indexada» empieza a subir, es el síntoma directo de un presupuesto saturado: Google conoce esas direcciones, pero ya no encuentra tiempo para rastrearlas. Este tercer perfil, mencionado por el propio Google, afecta a sitios mucho más pequeños que el millón de páginas. Esa es la señal que hay que vigilar, no un contador teórico.
Qué malgasta tu presupuesto de rastreo
Cuando el presupuesto de rastreo es un problema real, rara vez lo es por falta de capacidad. Lo es porque una parte del presupuesto se escurre hacia URLs sin valor. Google Search Central nombra con precisión las grandes fuentes de desperdicio.
El contenido y las URLs duplicadas encabezan la lista: varias direcciones que sirven la misma página dispersan el rastreo en vez de concentrarlo. La navegación por facetas es la fuente más frecuente en los sitios de comercio electrónico, y cada filtro acuña una URL más. A eso se suman el desplazamiento infinito que duplica contenido ya enlazado, las páginas Soft 404 que devuelven un 200 pero parecen vacías a ojos de Google, las cadenas de redirecciones que alargan cada obtención, y las páginas inútiles o eliminadas que Googlebot sigue solicitando.
El hilo común es sencillo: cada petición que Googlebot gasta en una URL sin interés es una petición que no gasta en una página que sí cuenta.
La trampa del noindex
El reflejo parece lógico: para evitar que Google pierda tiempo en páginas secundarias, las pones en noindex. Esa es justamente la trampa. La etiqueta noindex no ahorra ningún presupuesto de rastreo.
Google Search Central es explícito en este punto: no uses noindex con ese fin, porque Google va a solicitar la página de todos modos y luego la descartará al ver la etiqueta, malgastando así tiempo de rastreo. Dicho de otro modo, la página se rastrea antes de excluirse. En un puñado de URLs es indoloro; en decenas de miles, el noindex no hace más que trasladar el desperdicio.
La misma lógica vale para otra falsa buena idea: usar el robots.txt para «reasignar temporalmente» el presupuesto hacia otras páginas. Google lo desaconseja de forma expresa. El robots.txt sirve para bloquear de forma duradera el rastreo de URLs que no quieres que se rastreen en absoluto, no para repartir el presupuesto de un día a otro. Para distinguir bien estos mecanismos, el artículo sobre el estado «Excluida por la etiqueta noindex» y el de las páginas «Bloqueadas por robots.txt» detallan cada caso.
El puente hacia tus estados de Search Console
El presupuesto de rastreo sigue siendo una noción abstracta mientras no lo conectes con lo que Search Console muestra de verdad. Y dos estados del informe «Indexación de páginas» son la traducción directa de un presupuesto bajo presión, así que son los que hay que leer.
«Descubierta, actualmente no indexada» significa que Google conoce la URL pero aún no la ha rastreado. El presupuesto todavía no se ha gastado en ella: la dirección espera su turno en la cola, un turno que no llega cuando el presupuesto se va a otra parte. Es el síntoma más nítido de un presupuesto de rastreo saturado.
«Explorada, actualmente no indexada» cuenta lo contrario. Aquí el presupuesto sí se gastó: Google leyó la página, pero no la consideró digna de conservar. Es presupuesto quemado para nada, por lo general en páginas juzgadas demasiado flojas o demasiado parecidas a otras ya indexadas. Detectar estos dos estados y medir su peso es lo que convierte un concepto difuso en un diagnóstico concreto.
Diagnosticar a escala: dónde se fuga el presupuesto, URL por URL
Ahora bien, hay que poder leer esos estados al nivel adecuado. El informe «Estadísticas de rastreo» de Search Console ofrece una vista agregada valiosa: número de peticiones por día, tiempo de respuesta medio, códigos HTTP. Pero se detiene ahí. No dice qué URLs descuida Googlebot, ni desde cuándo, ni cuáles se están tragando el presupuesto. Para eso hay que bajar al grano de la URL, y la herramienta de Inspección de URLs solo procesa una página cada vez.
IndexProbe es la versión en masa de esa herramienta de Inspección de URLs. Le entregas la lista de URLs que quieres vigilar, mediante sitemap, CSV, copia y pega, o construyéndola directamente desde tu Search Console (por clics, impresiones o patrón de URL), y consulta para cada una la API oficial de Search Console. Tres datos hacen legible la fuga de presupuesto página por página: la fecha del último paso de Googlebot, el estado del robots.txt y el estado de indexación detallado. Con un filtro aíslas las URLs no rastreadas desde hace más de 30 días, las que siguen en «Descubierta, actualmente no indexada», o los patrones de facetas que acaparan el rastreo.
IndexProbe no es un rastreador: no descubre ninguna URL siguiendo enlaces, solo inspecciona la lista que le proporcionas o que construyes desde la GSC. Donde el inspector de Search Console obliga a ir de una URL en una URL, obtienes el mismo veredicto oficial, fechado, sobre toda tu lista, en una tabla filtrable que relanzas cuando quieras.
💡 El presupuesto de rastreo no se diagnostica dentro de un agregado: se lee URL por URL. Qué páginas ignora Googlebot, desde cuándo, y cuáles malgastan el rastreo. Descubre IndexProbe en acceso anticipado →
Qué ayuda de verdad (y qué no sirve de nada)
Una vez localizadas las fugas, la lista de acciones eficaces es corta y está bien documentada. Google Search Central recomienda consolidar el contenido duplicado, bloquear con robots.txt las URLs sin valor para el rastreo, devolver un 404 o 410 rotundo en las páginas eliminadas de forma definitiva, mantener un sitemap al día con valores lastmod fiables, evitar las cadenas de redirecciones y conservar páginas rápidas de cargar. Un sitio más ligero de rastrear deja que Googlebot alcance más páginas útiles en el mismo tiempo.
En cambio, varios reflejos muy extendidos no aportan nada. La directiva crawl-delay del robots.txt, citada a menudo para «cuidar» el servidor, Google la ignora por completo, ni siquiera la lee. Usar el robots.txt para reasignar el presupuesto de un día a otro está desaconsejado, como ya se ha visto. Y el noindex puesto para ahorrar rastreo produce el efecto contrario. La regla de criba es sencilla: lo que reduce el volumen de URLs inútiles ayuda; lo que pretende «negociar» con Googlebot no sirve. El estado «Indexada aunque bloqueada por robots.txt» recuerda, de paso, que bloquear el rastreo no es lo mismo que bloquear la indexación.
¿Y los rastreadores de IA en 2026?
Un factor nuevo se cuela en la ecuación: los bots de los motores generativos. GPTBot, ClaudeBot, PerplexityBot y sus equivalentes rastrean ya la web por su cuenta, y ese tráfico pesa sobre los servidores igual que el de Googlebot.
El matiz que conviene retener: la presión es real, pero no se confunde con el presupuesto de rastreo de Google. Estos bots se gestionan por separado, mediante el robots.txt, según quieras o no darles acceso. Incluirlos en un razonamiento sobre el presupuesto de rastreo de Googlebot solo enturbiaría el diagnóstico. Trátalo como una cuestión aparte, a partir de tus propios registros de servidor.
Comprobar que la corrección dio resultado
Una corrección de presupuesto de rastreo no se constata el día en que la despliegas, sino el día en que Google la tiene en cuenta. La medición se hace con el tiempo, comparando dos análisis de la misma lista de URLs: antes y después. El buen indicador no es una cifra aislada, es un movimiento. ¿Retrocede la proporción de «Descubierta, actualmente no indexada»? ¿Vuelve a subir la proporción de páginas rastreadas en menos de 30 días?
Este seguimiento vale también como salvaguarda. Un presupuesto de rastreo saneado puede degradarse de nuevo tras un rediseño, la incorporación de un nuevo juego de facetas o una regresión técnica. Seguir con regularidad la misma lista convierte una deriva silenciosa en una señal que puedes detectar, antes de que se traduzca en páginas que salen del índice. Y si el descubrimiento de tus páginas nuevas sigue siendo el punto de bloqueo, el artículo sobre cómo enviar tu sitio web a Google completa el enfoque por el lado de la indexación.
💡 El presupuesto de rastreo es una palanca real, pero no es asunto de todos los sitios, y pesa mucho más abajo del millón de páginas. Para los sitios a los que sí afecta, Search Console ya muestra dónde se fuga. IndexProbe te da, para toda la lista que proporcionas o construyes desde la GSC, la fecha del último rastreo y el estado de indexación oficial por URL, y sigue siendo repetible para seguir cada evolución de un análisis al siguiente. Prueba IndexProbe en acceso anticipado →
Preguntas frecuentes
¿A partir de cuántas páginas hay que preocuparse por el presupuesto de rastreo?
No hay un umbral absoluto, pero sí una heurística útil: el presupuesto de rastreo se vuelve un asunto real en torno a las 10.000 URLs, y a veces antes en cuanto las facetas, los parámetros o los filtros inflan el número de URLs rastreables. La cifra de «un millón de páginas» que cita Google describe el peor de los casos, no el punto de inflexión. El mejor indicador sigue siendo la proporción de tus URLs en «Descubierta, actualmente no indexada».
¿Influye el presupuesto de rastreo en el posicionamiento?
De forma indirecta. El rastreo no es una señal de posicionamiento en sí: Google no clasifica mejor una página por rastrearla a menudo. Pero una página que Googlebot no rastrea no puede indexarse, y una página no indexada no se posiciona en nada. Un presupuesto de rastreo mal repartido priva, por tanto, a tus páginas útiles del primer peldaño.
¿Cómo conocer tu presupuesto de rastreo?
El informe «Estadísticas de rastreo» de Search Console ofrece la vista agregada: peticiones por día, tiempo de respuesta, códigos HTTP. Para saber qué URLs concretas se rastrean, y en qué fecha, hay que bajar al nivel de cada URL, ya sea con la herramienta de Inspección de URLs (una página cada vez) o con una inspección en masa mediante la API de Search Console.
¿Ahorra presupuesto de rastreo el noindex?
No. Google solicita la página de todos modos y luego la descarta al ver la etiqueta noindex. La página se rastrea, por tanto, antes de excluirse, lo que gasta presupuesto de rastreo en lugar de preservarlo. Para impedir de verdad que una URL se rastree, hay que usar el robots.txt, no el noindex.
¿Permite el robots.txt reasignar el presupuesto de rastreo a otras páginas?
No, y Google lo desaconseja. El robots.txt sirve para bloquear de forma duradera el rastreo de URLs que no quieres que se rastreen, no para repartir el presupuesto de un día a otro. Bloquear una URL la retira de la cola de rastreo, pero no «transfiere» de manera mecánica su presupuesto a otras páginas.
¿Funciona la directiva crawl-delay con Google?
No. Googlebot no lee la directiva crawl-delay del robots.txt y la ignora por completo. Para regular su ritmo de rastreo, Google se apoya en la salud del servidor (tiempo de respuesta, errores), no en un valor declarado. La directiva sigue teniéndose en cuenta en otros motores, pero no en Google. Para el detalle de la directiva (quién la lee todavía, qué hacer en su lugar), consulta «Bloqueada por robots.txt».
¿Debe preocuparse mi sitio pequeño por el presupuesto de rastreo?
No, en la práctica totalidad de los casos. Un sitio de unos cientos de páginas, técnicamente limpio, cuyas novedades aparecen en el índice en cuestión de horas, no tiene por qué preocuparse. Si algunas páginas tardan en indexarse, el problema casi siempre está en otra parte: calidad del contenido, enlazado interno o señales de valor.