Dominar el rastreo de su sitio web
El presupuesto de rastreo es uno de los conceptos de SEO que no parecen recibir suficiente atención. Muchos de nosotros hemos oído hablar de ello, pero sobre todo, tendemos a aceptar el presupuesto de rastreo como es, suponiendo que se nos ha asignado una cierta cuota de rastreo que tenemos poco o ningún impacto.
¿O nosotros? La mayoría de los webmasters no deben preocuparse mucho por la tasa de rastreo. Pero si se ejecuta un sitio web a gran escala, el presupuesto de rastreo es algo que podemos – y debemos – optimizar para el éxito de SEO.
Por supuesto, como las cosas van con SEO, la relación entre el presupuesto de rastreo y las clasificaciones no es sencillo. En enero de 2017 Google publicó una publicación en Webmaster Central Blog, donde el motor de búsqueda dejó en claro que el rastreo en sí no es un factor de clasificación. Pero de alguna manera, el presupuesto de rastreo es importante para SEO.
En esta guía, le explicaré los conceptos básicos relacionados con el rastreo, la mecánica de cómo los motores de búsqueda asignan presupuestos de rastreo a los sitios web y consejos para ayudarle a aprovechar al máximo su presupuesto de rastreo para maximizar las clasificaciones y el tráfico orgánico.
Arañas web: lo bueno y lo malo
Las arañas web, rastreadoras o bots, son programas informáticos que continuamente «visitan» y rastrean páginas web para recopilar cierta información de ellos y sobre ellos.
Dependiendo del propósito del rastreo, se pueden distinguir los siguientes tipos de arañas:
- Las arañas de los motores de búsqueda
- Arañas de servicios web
- Arañas piratas.
Las arañas de los motores de búsqueda son administradas por los motores de búsqueda como Google, Yahoo o Bing. Estas arañas bajan las páginas web que pueden encontrar y las alimentan al índice del motor de búsqueda.
Muchos servicios web, como herramientas de SEO, compras, viajes, y sitios web de cupones, tienen sus propios índices web y arañas. Por ejemplo, WebMeUp tiene una araña llamada Blexbot. Blexbot se arrastra hasta 15 millones de páginas diarias para recopilar datos de backlink y alimentar esos datos a su índice de enlaces (el que se utiliza en SEO SpyGlass).
Los hackers también producen arañas. Utilizan las arañas para probar sitios web contra diversas vulnerabilidades. Una vez que encuentren una escapatoria, pueden tratar de obtener acceso a su sitio web o servidor.
Podrías oír a la gente hablar de arañas buenas y malas. Los distingo de esta manera: cualquier araña que pretenda recopilar la información con fines ilegítimos es mala. Todo el resto es bueno.
La mayoría de las arañas se identifican con la ayuda de la cadena del agente de usuario y proporcionan la URL donde puede aprender más sobre la araña:
- Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) or
- Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/).
En este artículo, me centraré en las arañas de los motores de búsqueda y cómo se arrastran los sitios web.
Descripción del presupuesto de rastreo
El presupuesto de rastreo es el número de veces que una araña de un buscador llega a su sitio web durante un período de tiempo determinado. Por ejemplo, Googlebot suele llegar a mi sitio unas 1.000 veces al mes, puedo decir que 1K es mi presupuesto de rastreo mensual para Google. Tenga en cuenta que no hay límite universal en cuanto al número y la frecuencia de estos rastreos; Llegaremos a los factores que forman su presupuesto de rastreo en un momento.
¿Por qué el presupuesto de rastreo es importante?
Bastante lógicamente, debe preocuparse por el presupuesto de rastreo porque desea que Google descubra la mayor cantidad posible de páginas importantes de su sitio. También desea que encuentre nuevos contenidos en su sitio rápidamente. Cuanto mayor sea el presupuesto de rastreo (y cuanto más inteligente sea su gestión), más rápido esto sucederá.
Determinación del presupuesto de rastreo
Puede obtener una idea del presupuesto de rastreo de su sitio en Google Search Console y Bing Webmaster Tools. Los datos de rastreo que obtendrá en estas herramientas son muy generales, pero suficientes para este paso.
Supongamos que necesita determinar su presupuesto de rastreo de Google. Inicie sesión en su cuenta de Search Console y vaya a Crawl -> Crawl Stats. Aquí, verá el número promedio de páginas de su sitio rastreadas por día.
Desde el informe anterior, puedo ver que en promedio, Google rastrea 32 páginas de mi sitio por día. A partir de eso, puedo calcular que mi presupuesto de rastreo mensual es 32 * 30 = 960.
Por supuesto, ese número es propenso a cambios y fluctuaciones. Pero te dará una idea sólida de cuántas páginas de tu sitio puedes esperar que se rastreen en un período de tiempo determinado.
Si necesita un desglose más detallado de sus estadísticas de rastreo por páginas individuales, tendrá que analizar las huellas de las arañas en los registros del servidor. La ubicación de los archivos de registro depende de la configuración del servidor. Apache normalmente los almacena en una de estas ubicaciones:
- /var/log/httpd/access_log
- /var/log/apache2/access.log
- /var/log/httpd-access.log
Si no está seguro de cómo obtener acceso a los registros del servidor, busque la ayuda del administrador del sistema o del proveedor de alojamiento.
Los archivos de registro crudos son difíciles de leer y analizar. Para darles sentido, necesitará habilidades de expresiones regulares Jedi, o herramientas especializadas. Prefiero usar WebLogExpert (tienen una versión de prueba de 30 días).
¿Cómo se asigna el presupuesto de rastreo?
Como SEO va, no sabemos exactamente cómo los motores de búsqueda forman el presupuesto de rastreo para los sitios. Según Google, el motor de búsqueda tiene en cuenta dos factores para determinar el presupuesto de rastreo:
- Popularidad: las páginas más populares se rastrean más a menudo, y
- Staleness: Google no permite que la información sobre las páginas se vuelva obsoleta. Para los webmasters, significa que si el contenido de una página se actualiza a menudo, Google intenta rastrear la página con más frecuencia.
Parece que Google utiliza el término popularidad para sustituir ahora el PageRank obsoleto.
«El número de páginas que rastreamos es aproximadamente proporcional a tu PageRank».
Aunque PageRank ya no es actualizado públicamente, todavía es seguro asumir que el presupuesto de un sitio de rastreo es en gran medida proporcional al número de backlinks y la importancia del sitio a los ojos de Google – es lógico que Google busca asegurarse de que las páginas más importantes siguen siendo el Más fresco en su índice.
¿Qué pasa con los enlaces internos? ¿Puede aumentar la tasa de rastreo de una página en particular señalando más vínculos internos a ella?
Con el fin de responder a estas preguntas, decidí comprobar la correlación entre los enlaces internos y externos y las estadísticas de rastreo. Recopilé datos para 11 sitios web y realicé un análisis sencillo. Brevemente, esto es lo que hice.
Mi conjunto de datos demostró que existe una fuerte correlación (0,978) entre el número de visitas de araña y el número de enlaces externos. Al mismo tiempo, la correlación entre los golpes de araña y los enlaces internos resultó ser muy débil (0,154). Esto muestra que los vínculos de retroceso son mucho más importantes para el rastreo de sitios web que los enlaces internos.
¿Significa que la única manera de aumentar su presupuesto de rastreo es crear vínculos y publicar contenido nuevo? Si estamos hablando del presupuesto de todo su sitio, diría que sí: crezca su perfil de enlace y actualice el sitio web a menudo y el presupuesto de rastreo de su sitio crecerá proporcionalmente. Pero cuando tomamos páginas individuales, ahí es donde se pone interesante. Como descubrirás en los procedimientos a continuación, podrías estar perdiendo mucho de tu presupuesto de rastreo sin ni siquiera darse cuenta. Al administrar su presupuesto de una manera inteligente, a menudo puede duplicar el recuento de rastreo para páginas individuales, pero seguirá siendo proporcional al número de backlinks de cada página.
Cómo aprovechar al máximo su presupuesto de rastreo
Ahora que hemos descubierto que el rastreo es importante para la indexación, ¿no es el momento de centrarse en las mejores maneras de administrar su presupuesto de rastreo para obtener la máxima alegría de SEO?
Hay bastantes de las cosas que usted debe (o no debe) hacer para que las arañas de la búsqueda consuman más páginas de su Web site y lo hagan más a menudo. Esta es una lista de acciones para maximizar la potencia de su presupuesto de rastreo:
- Asegúrese de que las páginas importantes pueden rastrearse y el contenido que no proporciona valor si se encuentra en la búsqueda está bloqueado.
Su .htaccess y robots.txt no deben bloquear las páginas importantes del sitio, y los robots deben poder acceder a los archivos CSS y Javascript. Al mismo tiempo, puede y debe bloquear el contenido que no desea que aparezca en la búsqueda. Los mejores candidatos para el bloqueo son páginas con contenido duplicado, áreas en construcción del sitio web, URL generadas dinámicamente, etc.
Auditor de sitios web es ideal para crear y administrar archivos robots.txt.
Hay una rápida manera de hacerlo:
- Ejecute la herramienta (si todavía no tiene Auditor de sitio web, puede descargarlo gratis aquí) y crear o abrir un proyecto.
- Vaya a la pestaña Páginas y haga clic en el icono Robots.txt. Verá el contenido actual del archivo robots.txt.
- Para agregar una nueva regla a su robots.txt, haga clic en Agregar regla. El software le permitirá elegir una instrucción (inhabilitar o permitir), una araña (puede introducir su nombre manualmente o seleccionar de una lista de los bots de búsqueda más difundidos) y una URL o directorio que debe bloquear.
- Del mismo modo, también puede eliminar y editar las reglas existentes.
- Cuando haya terminado de editar, haga clic en Siguiente y guarde el archivo en su disco duro o subirlo a su sitio a través de FTP de inmediato.
De nuevo en el módulo Páginas, también obtendrás muchas estadísticas relacionadas con el rastreo, como la fecha de caché de Google, Bing y Yahoo, las instrucciones de robots.txt y el código de estado HTTP.
Aunque esta página está bloqueada en robots.txt, Google sí lo sabe. No lo almacena en caché ni crea un fragmento estándar para él. Sin embargo, ocasionalmente lo golpea. Esto es lo que Google dice al respecto:
Robots.txt Disallow no garantiza que una página no aparezca en los resultados: Google todavía puede decidir, basándose en información externa, como los enlaces entrantes, que es relevante. Si desea bloquear explícitamente la indexación de una página, debería utilizar la metaetiqueta robots no índex o el encabezado HTTP X-Robots-Tag. En este caso, no debe rechazar la página en robots.txt, ya que la página debe rastrearse para que la etiqueta pueda ser vista y obedecida.
Además, si rechaza grandes áreas de su sitio web bloqueando carpetas o utilizando instrucciones comodín, Googlebot puede suponer que lo ha hecho por error y seguir rastreando algunas páginas de las áreas restringidas.
Por lo tanto, si intenta guardar su presupuesto de rastreo y bloquear páginas individuales que no considera importantes, utilice robots.txt. Pero si no quieres que Google sepa sobre una página en absoluto, usa las metaetiquetas.
2. Evite largas cadenas de redireccionamiento.
Si hay un número no razonable de 301 y 302 redirecciones en una fila en su sitio, las arañas de búsqueda se detendrá después de los redireccionamientos en algún momento y la página de destino no puede obtener rastreado. Más que eso, cada URL redirigida es un desperdicio de una «unidad» de su presupuesto de rastreo. Asegúrese de utilizar redireccionamientos no más de dos veces seguidas, y sólo cuando sea absolutamente necesario.
Puede obtener una lista completa de páginas con redirecciones en WebSite Auditor.
- Abra su proyecto y vaya al módulo Auditoría del sitio.
- Haga clic en Páginas con redireccionamiento 302 y Páginas con redireccionamiento 301 para obtener una lista completa de páginas redireccionadas.
- Haga clic en Páginas con largas cadenas de redireccionamiento para obtener una lista de URL con más de 2 redirecciones.
3. Administrar los parámetros de URL.
Los sistemas de gestión de contenido populares generan muchas URL dinámicas que, de hecho, conducen a una misma página. De forma predeterminada, los robots de los motores de búsqueda tratarán estas URL como páginas independientes; Como resultado, puede estar desperdiciando su presupuesto de rastreo y, potencialmente, criando problemas de duplicación de contenido.
Si el motor o el CMS de tu sitio web agrega parámetros a las URL que no influyen en el contenido de las páginas, asegúrate de informarle a Googlebot al agregar estos parámetros en tu cuenta de la Consola de búsqueda de Google, en Rastreo -> Parámetros de URL.
4. Buscar y corregir errores de HTTP.
Cualquier URL que Google recoja, incluyendo CSS y Java Script, consume una unidad de su presupuesto de rastreo. Usted no quiere perderlo en 404 o 503 páginas, ¿verdad? Tómese un momento para probar su sitio en busca de enlaces rotos o errores de servidor y corregirlos tan pronto como sea posible.
En su proyecto Auditor de sitio web, vaya a Estructura del sitio> Auditoría del sitio.
Haga clic en el factor de vínculos rotos. En el panel derecho, verás una lista de enlaces rotos en tu sitio que necesitarás arreglar, si los hay.
A continuación, haga clic en Recursos con código de estado 4xx y Recursos con código de estado 5xx para obtener una lista de recursos que devuelven errores HTTP.
5. Hacer uso de RSS.
Por lo que observo, los feeds RSS están entre las primeras páginas visitadas por Google spider. Si una sección de su sitio web se actualiza a menudo (un blog, una página de productos destacados, una sección de llegadas), asegúrese de crear un feed RSS para ello y enviarlo al Feed Burner de Google. Recuerde mantener los canales RSS libres de no-canónicos, bloqueados de indexación o 404 páginas.
6. Mantenga su mapa del sitio limpio y actualizado.
Los sitemaps XML son importantes para el correcto rastreo de sitios web. Dicen a los motores de búsqueda sobre la organización de su contenido, y permiten a los robots de búsqueda descubrir nuevos contenidos más rápido. Su sitio web XML debe ser actualizado regularmente y libre de basura (páginas 4xx, páginas no canónicas, direcciones URL que redirijan a otras páginas y páginas bloqueadas de la indexación).
Puede obtener una lista de dichas URL en Auditor de sitio web y excluirlas fácilmente de su mapa del sitio.
- En el proyecto Auditor de sitio Web, vaya al módulo Auditoría de sitio.
- Haga clic en Páginas con código de estado 4xx para obtener una lista de páginas 4xx, si las hubiera. Copie las URL en un archivo separado (una hoja de cálculo o cualquier editor de texto regular).
- Haga clic en Páginas con redireccionamiento 301 para obtener una lista de 301 páginas. Copia esos, también.
- Haga lo mismo para Páginas con redireccionamiento 302.
- Haga clic en Páginas con rel = ‘canonical’ para obtener una lista de páginas canónicas y no canónicas. Agregue estas URL a su lista también.
Auditor de sitio web también tiene un generador de sitemap XML útil. Simplemente haga clic en Sitemap para comenzar a crear su sitemap XML.
- Utilice el filtro rápido para buscar las URL 4xx, 3xx y no canónicas que acaba de copiar y desmarque las casillas junto a esas páginas.
- Ajuste la prioridad y la frecuencia de cambio. Estos ajustes son opcionales, pero pueden ayudarlo a dirigir bots de búsqueda a las páginas más importantes y actualizadas con más frecuencia de su sitio. Por ejemplo, normalmente daría la máxima prioridad a su página de inicio, a las páginas de categorías ya las subcategorías.
Frecuencia de cambio describe la frecuencia con la que se actualiza la página para darle a los rastreadores y la idea de cuándo es probable que cambie cada página o directorio y que deba revisarse de nuevo.
Si ejecuta un sitio web grande que tiene muchas subsecciones, es útil crear un mapa de sitio independiente para cada subsección. Esto facilitará la gestión de su mapa del sitio y le permitirá detectar rápidamente áreas del sitio web donde se producen problemas de rastreo. Por ejemplo, puede tener un mapa del sitio para el foro de discusión, otro mapa del sitio para el blog y un mapa del sitio más para cubrir las páginas principales del sitio web. Para sitios web de comercio electrónico, es recomendable crear sitemaps individuales para categorías de productos grandes.
Asegúrese de que todos los sitemaps sean descubiertos por las arañas. Puede incluir vínculos a los sitemaps en robots.txt y registrarlos en la Consola de búsqueda.
7. Tenga cuidado de su estructura del sitio y de la vinculación interna.
Aunque la vinculación interna no tiene una correlación directa con su presupuesto de rastreo, la estructura del sitio sigue siendo un factor importante para que su contenido sea descubierto por bots de búsqueda. Un sitio web lógico similar a un árbol tiene muchos beneficios, como la experiencia del usuario y la cantidad de tiempo que sus visitantes pasarán en su sitio, y el rastreo mejorado es definitivamente uno de ellos.
En general, mantener las áreas importantes de su sitio no más allá de 3 clics de distancia desde cualquier página es un buen consejo. Incluya las páginas y categorías más importantes en el menú del sitio o en el pie de página. Para sitios más grandes, como blogs y sitios web de comercio electrónico, las secciones con publicaciones / productos relacionados y publicaciones / productos destacados pueden ser de gran ayuda para colocar sus páginas de destino por ahí, tanto para usuarios como para bots de motores de búsqueda.
Si usted necesita las instrucciones detalladas, recomiendo encarecidamente que obtenga a través de esta guía interna de enlace.
Como se puede ver, SEO no es todo acerca de «contenido valioso» y «enlaces de buena reputación». Cuando el foreside de su sitio web parece pulido, puede ser hora de bajar a la bodega y hacer caza de arañas – es seguro que hacer maravillas en la mejora del rendimiento de su sitio en la búsqueda.
Ahora que usted tiene todos los instrumentos necesarios y el conocimiento para domesticar las arañas de los motores de búsqueda, ir y probarlo en su propio sitio, y por favor, compartir los resultados en los comentarios!