¿Qué son los crawlers/rastreadores?

A la hora de posicionar un sitio web participan los crawlers o rastreadores. Pero, ¿sabes exactamente qué son y lo que hacen y por qué son tan importantes para cualquier página web?

No podían faltar en nuestro diccionario #EnsalZa, así que sigue leyendo y descúbrelo:

definición crawler

Crawler o Arañas de la web: Qué es

Cuando hablamos del crawler, nos referimos a un rastreador, una araña o un robot. Es decir, un programa que analiza los distintos documentos de las webs. 

Los motores de búsqueda no posicionan todas las páginas webs que hay en Internet aleatoriamente, sino que cuentan con rastreadores que navegan por los sitios web, para analizarlos y crear una base de datos útil con información sobre ellos. 

Para hacer esta función tan importante, existen los rastreadores. Además, su origen no pasa desapercibido, porque el término de crawler se remonta al primer motor de búsqueda de Internet, conocido como Web Crawler. Ahora, que el rastreador de Google tiene nombre propio: Googlebot. 

Realmente, se puede decir que estas arañas son nuestras amigas, (sorry por los que sufran de aracnofobia), pero la verdad es que el sistema que nos ayuda a posicionarnos en los resultados de búsqueda. Si tenemos una web que carga rápido y bien organizada, tanto en taxonomías o jerarquías como con un correcto enlazado interno, tendremos más papeletas para posicionarnos por encima de nuestros competidores. Eso si, es importante conocer que el robot únicamente lee el código fuente de la página (no lee el diseño, ni las imágenes o el contenido flash, por lo que debe estar optimizado al máximo. 

Para mejorar el posicionamiento de páginas web, no solo es importante tener en cuenta esto que te contamos. Como sabrás, tener un contenido relevante y  rico en palabras clave es fundamental, así como buenos backlinks y, preferiblemente, autoridad de dominio. ¡Todos estos aspectos suman puntos a ojo de los crawlers!

¿Cómo funcionan los crawlers?

Ahora que sabemos qué son los rastreadores que visitan nuestras webs para elegir si posicionarnos por encima o por debajo de otras, veamos, ¿cómo funcionan exactamente? Cuando encuentra una nueva URL (bien porque ha habido actualizaciones en esa página o se ha enviado un nuevo sitemap a Google), añade esa URL a una lista (índice) de todas las páginas que ya ha visitado para ofrecer búsquedas más rápidas después de categorizar esa información a través del texto visible, las etiquetas HTML, los enlaces….  además de buscar el archivo robots.txt y la meta etiqueta robots para ver las reglas que se han marcado en cuanto a rastreo.

Así, resumiendo de manera muy simplificada, podemos decir que al crawler se le ordenan determinadas normas y las sigue para crear una base de datos, por lo que ayudan a extraer la información que hace falta para evaluar los sitios web y, por tanto, su posicionamiento en los SERPs o resultados de búsqueda.

¿Cómo puedo saber si Googlebot ha visitado mi página?

Hay varias opciones: 1.Accediendo a Google Search Console y viendo las últimos fechas que ha recopilado. 2. Observar los logs dentro del caché del servidor.

¿Se pueden bloquear los crawlers?

Seguramente te suene eso de bloquear a las arañas de Google. Esto es algo que puedes hacer directamente editando el archivo robots.txt o la etiqueta Meta robots.

Si bloqueas ciertos contenidos o urls, los rastreadores no podrán analizarlos, pero es importante conocer en qué se diferencian el rastreo de la indexación para hacerlo correctamente:

No obstante, ojo, no es lo mismo bloquear una URL que evitar que esa URL se indexe en Google. Si lo que necesitas es que Google no indexe algo directamente, debes utilizar las etiquetas Noindex o Rel=Canonical. Un truco sencillo es modificarlo manualmente a través de Yoast SEO.

¿Qué diferencias hay entre Rastreo e Indexación?

Nos lo preguntan mucho, sobre todo a la hora de «bloquear a los robots» de los motores de búsqueda porque son dos términos esenciales para entender el funcionamiento del posicionamiento SEO de una web, así que voy a ver si te aclaro todo esto:

  • Indexación

Ya hicimos un post hablando largo y tendido sobre qué es la indexación en Google, cómo se indexa una página web y cómo forzar esa indexación. Aun así, podemos decir, que una página web está indexada cuando los bots o crawlers pasan por esa página y la añaden al índice de Google, el índice que se tendrá en cuenta para mostrar en las SERP.

  • Rastreo

El rastreo es simplemente el momento en el que las arañas de Google pasan (o no) por los enlaces e información que tenemos en esa página en concreto y si no quieres que los crawlers la rastreen deberás indicarlo, bien a través del archivo robots.txt o bien con la etiqueta META robots.

  • ¿Cuándo es mejor utilizar robots.txt?

Cuando queremos bloquear tanto la indexación como el rastreo: Utilizando disallow en el archivo robots.txt de nuestra página, le estaremos diciendo a Google que no puede rastrear ni indexar las páginas que le indicamos. Además, es probable que Google nos «agradezca» que le avisemos y le ahorremos tiempo de rastreo.

  • ¿Cuando debo utilizar la etiqueta META robots?

Cuando lo que buscamos es que se indexe pero no se rastreen los enlaces de una página en concreto o viceversa, cuando no queremos que se indexe esa url pero si nos interesa que se sigan los enlaces de la página, utilizaríamos la etiqueta a utilizar <META name=»robots»…> y tendríamos dos variables para controlar la indexación: «index» y «no index», mientras que el rastreo se permitiría o bloquearía utilizando «follow» y «nofollow».

Es decir, habría cuatro combinaciones utilizando estos cuatro parámetros:

  • <meta name»robots» content=»index, follow» 
Rastreo e indexacion permitidas, no tiene sentido ponerlo
  • <meta name»robots» content=»index, nofollow»
Indexacion permitida pero no el rastreo.
  • <meta name»robots» content=»noindex, follow»> 
Rastreo permitido pero no la indexación. Se utilizaría cuando no podemos controlar la relevancia de los enlaces de la página, el contenido es totalmente generado por usuarios, etc..
  • <meta name»robots» content=»noindex, nofollow»>
Evita tanto el rastreo como la indexación. Es lo mismo que si utilizamos disallow en el robots.txt. 

Si te queda alguna duda sobre este tema, puedes echarle un vistazo a este post de Alex Serrano en el que se trata en profundidad este tema y las principales diferencias entre el robots.txt y el meta robots.

 

¿Tengo que hacer algo para que pasen los crawlers por mi web?

Puedes forzarlo o esperar a que pasen solos. Una manera de forzar el rastreo es a través de la Google Search Console, enviando el robots.txt y sitemap para indexar manualmente, tanto el index como páginas por separado. 

También puedes aumentar las veces que pasa el robot por tu web si publicas contenido de manera habitual. ¡El hecho de ser constante gusta a Google!

 

Ojo, ¡no lo confundas con un scraper!

Es importante no confundir un crawler con un scraper. El primero recolecta datos, pero el segundo es una fea técnica de black hat SEO que consiste en copiar datos de diferentes webs para así utilizarlos en otros sitios web, cargándose el curro de otros. Por ello, se le conoce como el uso de técnicas un tanto fraudulentas para mejorar el posicionamiento en tiempo récord.

 

¡Esperamos que te haya quedado más claro que son los crawlers y cómo puedes «comunicarte» con ellos! Si no, ponte en contacto con nosotros que te ayudamos con todo lo que necesites para tu página web

¿Te apuntas a nuestra newsletter?

* Para cumplir con la nueva Ley de Protección de Datos y que tus datos estén seguros con nosotros, debes leer y aceptar nuestra política de privacidad. Tus datos serán gestionados por nosotros, Ensalza S.L y almacenados en Mailchimp, nuestro proveedor de mailing. No tenemos intención de ceder tus datos a terceros salvo mandato legal y siempre podrás ejercer tus derechos sobre ellos. Puedes informarte sobre nuestra política de privacidad al pie de esta página.