"Indexada aunque bloqueada por robots.txt": ¿qué hacer?
Bloqueas una página en tu robots.txt para mantenerla fuera de Google. Y aun así, en la Search Console, aparece: «Indexada aunque bloqueada por robots.txt». Google la indexó de todos modos.
Es desconcertante, y el primer impulso suele ser el peor: añadir una etiqueta noindex. Veremos por qué, en este caso concreto, no cambia nada.
Este estado no siempre es un problema. Depende de lo que quisieras hacer con la página. Pero casi siempre revela un malentendido sobre lo que hace de verdad el robots.txt. Vamos a aclararlo, ver los dos casos, y sobre todo cómo filtrar tus páginas para corregir cada una de la forma correcta.
¿Qué significa "Indexada aunque bloqueada por robots.txt"?
Significa que Google indexó tu URL sin haberla rastreado nunca. El archivo robots.txt bloquea el rastreo, no la indexación: Google no lee el contenido de la página, pero sabe que la URL existe y la añadió a su índice. En muchos casos, no es un error.
Es el punto que casi todo el mundo malinterpreta. Google lo dice claramente en su documentación: "A robots.txt file tells search engine crawlers which URLs the crawler can access on your site… it is not a mechanism for keeping a web page out of Google." El robots.txt le dice a Googlebot qué rastrear, no qué indexar.
Así, una página puede tener el rastreo prohibido y aun así aparecer en los resultados, normalmente sin descripción (Google no leyó el contenido, no puede extraer un fragmento). De ahí el fragmento vacío o el texto «No hay información disponible sobre esta página».
¿Por qué una página bloqueada acaba indexada?
Porque Google encontró la URL en otro sitio que no es la propia página. La causa más frecuente: los enlaces externos. Si otros sitios enlazan tu URL, Google la descubre, la considera relevante y la indexa, aunque no pueda rastrearla. Listar la URL en tu sitemap produce el mismo efecto.
De nuevo, está documentado: "A page that's disallowed in robots.txt can still be indexed if linked to from other sites. While Google won't crawl or index the content blocked by a robots.txt file, we might still find and index a disallowed URL if it is linked from other places on the web."
Dicho de otro modo, el bloqueo por robots.txt impide a Google leer la página, pero no listarla si se entera de ella por otra vía. Eso es exactamente lo que crea este estado.
¿Es un problema? Depende de lo que querías
No hay una respuesta única: todo depende de tu intención para la página. Dos casos, dos correcciones opuestas. Mientras no decidas en cuál estás, no podrás corregir bien.
Caso A: querías la página privada. Páginas de carrito, de cuenta, de búsqueda interna, entornos de pruebas… La bloqueaste para ocultarla, y se filtra igualmente en Google, con un fragmento vacío que da mala imagen. Aquí el objetivo es sacarla del índice para siempre.
Caso B: querías la página indexada. Una página útil quedó bloqueada por error: una regla Disallow demasiado amplia, o un bloqueo heredado de un entorno de pruebas nunca retirado. Está en el índice, pero Google no lee su contenido, así que nunca se posicionará bien. Aquí el objetivo es el contrario: desbloquearla para que Google por fin la rastree.
Clasificar las páginas entre A y B es el verdadero trabajo. Y antes de corregir el caso A, hay que conocer una trampa.
La trampa: poner un noindex no basta
Para sacar una página del índice, la herramienta correcta es la etiqueta noindex, no el robots.txt. Pero hay una trampa: si la página sigue bloqueada por robots.txt, Google nunca verá tu noindex. Hay que permitir antes el rastreo, o tu instrucción queda en papel mojado.
Es el error más común con este estado, y Google lo describe con precisión en su documentación sobre noindex: "For the noindex rule to be effective, the page or resource must not be blocked by a robots.txt file… If the page is blocked by a robots.txt file or the crawler can't access the page, the crawler will never see the noindex rule, and the page can still appear in search results."
La lógica es implacable: el robots.txt impide a Google leer la página; y el noindex está dentro de la página. Mientras el bloqueo siga ahí, Google no puede ver la instrucción que se supone que debe seguir. Pones un noindex, esperas, y no pasa nada.
Por eso la forma correcta de desindexar (caso A) es contraintuitiva:
- Quita la regla
Disallowdel robots.txt (sí, desbloqueas la página). - Añade el
noindex, en etiqueta meta<meta name="robots" content="noindex">o en cabecera HTTPX-Robots-Tag: noindex(ambas tienen el mismo efecto). - Deja que Google vuelva a rastrear la página, vea el noindex y la retire del índice.
- Una vez desindexada, puedes volver a bloquearla en robots.txt si quieres.
Para páginas realmente sensibles, Google recomienda además la protección con contraseña, más radical que un noindex.
Queda la verdadera dificultad: detectar cuáles de tus páginas están en este estado y cuáles tienen un noindex que no sirve de nada.
💡 ¿Quieres saber qué URLs están «indexadas aunque bloqueadas» y si tu noindex es siquiera visible para Google? IndexProbe lo muestra en un solo análisis. Probar IndexProbe en acceso anticipado →
Identificar las páginas afectadas en la lista que analizas
Aquí es donde la Search Console muestra sus límites: te obliga a inspeccionar las URLs una a una. Para filtrar rápido, hay que cruzar, para cada URL, tres datos: su estado de indexación, su estado robots.txt (permitida o bloqueada) y su estado noindex. Es justo lo que hace IndexProbe, sobre la lista de URLs que le proporcionas (importación CSV, sitemap, etc.), y solo sobre esa lista: no rastrea el sitio para descubrir otras URLs.
Dos lecturas, según la lista que aportas:
- Una selección de páginas estratégicas (tus páginas clave, tu sitemap). Compruebas si alguna está «indexada aunque bloqueada»: es el caso B, una página útil bloqueada por error, a desbloquear cuanto antes.
- Una exportación completa de tus URLs (sitemap entero, exportación de rastreo). Aquí ves todas las páginas bloqueadas-pero-indexadas, y sobre todo puedes cruzar con el estado noindex para detectar los noindex ineficaces: una página con un
noindexpuesto mientras robots.txt la bloquea. Google no lo ve, la página sigue indexada. La trampa de la sección anterior, visible de un vistazo.
Ese cruce estado de indexación × robots.txt × noindex no te lo da ninguna otra herramienta a escala.
La Search Console, en cambio, te obliga a abrir cada estado por separado y limita sus informes a 1.000 URLs. Es el muro que IndexProbe derriba, sobre el alcance que tú elijas.
Corregir según el caso
Una vez clasificadas tus páginas, la corrección depende del caso. No los mezcles: la acción correcta para una página privada es exactamente lo contrario que para una página útil.
Sacar la página del índice (caso A)
Sigue los pasos de arriba: quita el Disallow, pon un noindex, deja que Google vuelva a rastrear, y vuelve a bloquear si quieres una vez desindexada. Para páginas muy sensibles, prefiere la protección con contraseña. En caso de urgencia (dato expuesto), la herramienta Retiradas de la Search Console oculta la página en unas horas, mientras se aplica la desindexación definitiva.
Hacer que la página se indexe (caso B)
Más sencillo: quita la regla Disallow que bloquea la página en tu robots.txt, y asegúrate de que no arrastre ningún noindex. Google podrá por fin rastrearla, leer su contenido e indexarla correctamente.
Según tu CMS
- WordPress. Comprueba primero Ajustes → Lectura: la casilla «Disuade a los motores de búsqueda de indexar este sitio» añade un bloqueo global, a desmarcar en producción. Para el noindex página por página, usa el campo dedicado de Yoast SEO, Rank Math o All in One SEO.
- Shopify. El robots.txt de Shopify bloquea por defecto
/cart,/account,/checkouty/orders(páginas que efectivamente no se quieren indexar). Para ajustar las reglas, edita el archivorobots.txt.liquid; para el noindex de una plantilla, usa las etiquetas del tema.
Diferencia con "Bloqueada por robots.txt"
Se confunden constantemente estos dos estados de la Search Console. La diferencia se reduce a una cosa: ¿acabó Google indexando la URL a pesar del bloqueo?
| Estado de GSC | ¿Rastreada? | ¿Indexada? | Qué significa |
|---|---|---|---|
| Bloqueada por robots.txt | No | No | Google respeta el bloqueo y no indexa. La página no aparece en los resultados. |
| Indexada aunque bloqueada por robots.txt | No | Sí | Google encontró la URL en otro sitio (enlaces, sitemap) y la indexó sin leerla. Aparece, a menudo sin descripción. |
El primer estado es el comportamiento «limpio» de un bloqueo voluntario (artículo sobre «Bloqueada por robots.txt» próximamente). El segundo indica que el bloqueo no bastó para mantener la página fuera del índice, y es justo el que requiere los pasos de este artículo.
Comprobar que la corrección funcionó
Tras tus correcciones, confírmalo a escala. Vuelve a inspeccionar tus URLs y compara dos análisis: las páginas que querías fuera deben abandonar el estado «Indexada aunque bloqueada» (y el índice), y las páginas útiles que desbloqueaste deben pasar a estar indexadas con normalidad.
Es el ciclo completo: entenderlo, clasificar A/B, corregir sin caer en la trampa del noindex, comprobar.
Preguntas frecuentes
«Indexada aunque bloqueada por robots.txt», ¿es grave? No necesariamente. Si la página no estaba pensada para indexarse y no expone nada sensible, es solo un fragmento poco favorecedor en Google. Se convierte en problema en dos casos: la página es privada y se filtra en los resultados, o es una página útil bloqueada por error que nunca se posicionará mientras no se rastree.
¿Por qué una página bloqueada por robots.txt está indexada igualmente? Porque el robots.txt solo bloquea el rastreo, no la indexación. Si Google encuentra la URL mediante enlaces externos o tu sitemap, puede indexarla sin leer el contenido. Lo documenta el propio Google.
¿Cómo desindexar una página bloqueada por robots.txt?
Contraintuitivo pero necesario: quita primero el bloqueo del robots.txt, añade un noindex (etiqueta meta o cabecera X-Robots-Tag), deja que Google vuelva a rastrear la página para que vea el noindex, y espera la desindexación. Si dejas el bloqueo, Google nunca verá tu noindex.
¿Por qué no funciona mi noindex?
Lo más probable es que la página siga bloqueada por robots.txt. El noindex está en el código de la página; si Google no puede rastrearla, no puede leerlo. Desbloquea la página y el noindex surtirá efecto en el siguiente rastreo.
¿Cómo corregirlo en WordPress o Shopify?
En WordPress, desmarca «Disuade a los motores de indexar» en Ajustes → Lectura, y gestiona el noindex con Yoast o Rank Math. En Shopify, ajusta las reglas en robots.txt.liquid; las páginas /cart, /account y /checkout están bloqueadas por defecto, lo cual es normal.
¿Qué diferencia hay con "Bloqueada por robots.txt"? «Bloqueada por robots.txt» significa que la página no está rastreada ni indexada: el bloqueo funcionó. «Indexada aunque bloqueada» significa que la página está indexada aunque tenga el rastreo bloqueado: Google la encontró en otro sitio. El segundo requiere acción, el primero normalmente no.
Deja de adivinar qué páginas se filtran en Google. IndexProbe se conecta a la API oficial de la Search Console e inspecciona tu lista de URLs: estado de indexación, estado robots.txt y estado noindex, uno al lado del otro. En minutos detectas las páginas bloqueadas-pero-indexadas, los noindex ineficaces, y compruebas tus correcciones de un análisis a otro.