Puntos clave:
- El crawl budget determina cuántas páginas Google rastrea en tu sitio web por período de tiempo
- Un crawl budget desperdiciado significa que las páginas importantes se indexan más tarde o nunca
- Las optimizaciones técnicas dirigen a Googlebot hacia tu contenido más valioso
Tu nueva página de producto lleva semanas online, pero Google todavía no la muestra en los resultados de búsqueda. O tus artículos del blog tardan meses en indexarse. El problema podría ser tu crawl budget, un componente técnico a menudo pasado por alto que determina si y cuándo Google encuentra tu contenido.
Para sitios web pequeños con unos pocos cientos de páginas, el crawl budget raramente importa. Para sitios web más grandes con miles o decenas de miles de páginas, sin embargo, se convierte en un factor decisivo para la visibilidad en Google.
¿Qué es el Crawl Budget y por qué es limitado?
Google establece un límite para cada sitio web sobre cuántas páginas puede obtener Googlebot en un período de tiempo determinado. Este límite se llama crawl budget y consiste en dos factores: la capacidad de rastreo que tu servidor puede manejar sin ralentizarse, y la demanda de rastreo, es decir, cuán importante considera Google tu contenido.
Si Googlebot solo puede rastrear 500 páginas por visita pero tu sitio web tiene 10.000 páginas, se necesitan veinte visitas para rastrear todas las páginas una vez. El contenido nuevo debe esperar su turno. Peor aún: si Googlebot pierde tiempo en páginas sin importancia, tu mejor contenido podría nunca ser rastreado.
Señales de problemas con el Crawl Budget
No todos los sitios web tienen un problema de crawl budget. Google Search Console revela si estás afectado. En "Configuración" encontrarás las estadísticas de rastreo que muestran cuántas páginas se rastrean diariamente y cómo evoluciona este valor.
Existe un problema cuando las páginas nuevas tardan semanas en indexarse a pesar de estar bien enlazadas internamente. Igualmente crítico es cuando páginas importantes aparecen como "Rastreada, actualmente no indexada" mientras que páginas sin importancia llegan al índice sin problemas. Una caída repentina en las páginas rastreadas diariamente también indica problemas.
Para sitios web pequeños con menos de 1.000 páginas, servidores rápidos y buena estructura, el crawl budget raramente es un problema. La optimización es especialmente valiosa para tiendas e-commerce, grandes portales de contenido y sitios web con muchas páginas generadas dinámicamente.
Identificar y eliminar el desperdicio de rastreo
Googlebot desperdicia crawl budget cuando pasa tiempo en páginas que no aportan valor. Las causas más comunes pueden descubrirse y corregirse con una auditoría técnica.
Las URLs con parámetros son una de las mayores culpables. Cuando tu búsqueda o filtrado crea URLs como /productos?color=rojo&talla=m&orden=precio, rápidamente surgen miles de combinaciones con contenido idéntico o muy similar. Usa etiquetas canonical para mostrar a Google la versión preferida, o bloquea las URLs con parámetros en robots.txt.
Las páginas obsoletas y eliminadas también consumen recursos. Cuando Googlebot trabaja repetidamente con errores 404 o cadenas de redirecciones, este tiempo falta para el contenido actual. Revisa regularmente los errores 404 y redirecciones y límpialos consistentemente.
Las páginas de resultados de búsqueda interna, vistas de calendario con opciones de fechas infinitas o IDs de sesión en URLs también consumen crawl budget sin ningún beneficio SEO. Estas áreas pertenecen al robots.txt o deben etiquetarse con noindex.
Establecer las señales correctas para Googlebot
En lugar de solo reducir el desperdicio, puedes dirigir activamente a Googlebot hacia tus páginas más importantes. El sitemap XML es la herramienta más importante aquí. Solo debe contener páginas indexables que realmente quieres posicionar. Un sitemap inflado con miles de URLs sin importancia es contraproducente.
Los enlaces internos también influyen en qué páginas prioriza Googlebot. Las páginas enlazadas desde muchas otras páginas parecen más importantes y se rastrean con más frecuencia. Asegúrate de que tus páginas principales estén a máximo dos o tres clics de la página de inicio y bien integradas en la estructura de enlaces internos.
El robots.txt controla qué áreas puede acceder Googlebot. Bloquea todos los directorios que no contengan contenido relevante para Google: áreas de administración, búsqueda interna, páginas de login, carrito de compras y checkout. Pero ten cuidado: las páginas bloqueadas no pueden posicionar y no transmiten link juice.
Rendimiento del servidor como factor de rastreo
Cuanto más rápido responda tu servidor, más páginas puede rastrear Googlebot en el mismo tiempo. Un tiempo de respuesta del servidor inferior a 200 milisegundos es ideal. Si tu servidor tarda un segundo en cada solicitud, Google rastrea solo una quinta parte de las páginas.
Las estadísticas de rastreo en Search Console muestran el tiempo de respuesta promedio de tu servidor. Si este valor está constantemente por encima de 500 milisegundos, deberías invertir en mejor hosting u optimizar el rendimiento de tu sitio web. El caching, CDNs y la optimización de bases de datos pueden mejorar drásticamente los tiempos de respuesta.
La velocidad general del sitio web también juega un papel. Googlebot evalúa cuán intensivo en recursos es rastrear tus páginas. Las páginas ligeras y de carga rápida reciben trato preferencial.
Preguntas frecuentes
¿Cómo descubro si mi crawl budget es un problema?
Revisa en Google Search Console en "Configuración > Estadísticas de rastreo" cuántas páginas se rastrean diariamente. Compara esto con el número total de tus páginas indexables. Si las páginas importantes no se indexan durante semanas o la tasa de rastreo cae repentinamente, probablemente tienes un problema.
¿Debería añadir noindex a todas las páginas sin importancia?
Noindex previene la indexación, pero Googlebot aún rastrea la página. Para una verdadera optimización del crawl budget, robots.txt es más efectivo porque previene completamente el rastreo. Usa noindex para páginas que necesitan ser rastreadas pero no deben aparecer en el índice.
¿Qué tan rápido hacen efecto las optimizaciones del crawl budget?
Los cambios en robots.txt y sitemap generalmente se consideran dentro de unos pocos días. Sin embargo, los efectos en la indexación pueden tardar semanas. Monitorea las estadísticas de rastreo durante al menos un mes antes de hacer más cambios.
¿Afecta la versión móvil a mi crawl budget?
Sí, desde el mobile-first indexing, Google rastrea principalmente tu versión móvil. Asegúrate de que la página móvil sea tan rápida y completa como la versión de escritorio. El contenido faltante en móvil se trata como faltante.