La importancia de /robots.txt
Publicado: 2020-07-27Última actualización el 27 de julio de 2020
En un blog anterior, discutimos los beneficios del archivo sitemap.xml en nuestro sitio web. En este blog, vamos a discutir la importancia del archivo /robots.txt en nuestro sitio web.
¿Qué es /Robots.Txt?
El /robots.txt es un archivo de texto ubicado en el directorio raíz del servidor web de nuestro sitio web. Es un archivo importante porque se utiliza para dar instrucciones sobre el contenido web de nuestro sitio a los robots web. Web Robots, Crawlers o Spiders son programas utilizados por los motores de búsqueda para indexar el contenido web de un sitio web. Estas instrucciones dadas se denominan Protocolo de exclusión de robots.
El archivo /robots.txt es un archivo público al que se puede acceder escribiendo una URL como http://wwwmysite.com/robots.txt. Cualquiera puede ver el contenido del archivo y las ubicaciones a las que no desea que accedan los robots web. Esto significa que el archivo /robots.txt no debe usarse para ocultar información crítica en su sitio web.
El /robots.txt es lo primero que buscan los robots de los motores de búsqueda cuando visitan un sitio web... Click To TweetSintaxis y contenido del archivo Robot.txt
Las instrucciones proporcionadas en el archivo /robots.txt incluyen la ubicación del mapa del sitio de nuestro sitio, a qué directorio queremos y no queremos que accedan los robots web, y a qué páginas queremos y no queremos que acceda el robot web. Una instrucción de sintaxis simple del archivo /robots.txt es:
Agente de usuario: *
No permitir: /
La línea "User-agent: *" significa que las instrucciones del archivo se aplican a todos los robots. El "No permitir: /" le dice al robot que no rastree ninguna página del sitio.
Otras instrucciones estándar en /robots.txt pueden ser:
- Permita el acceso completo al contenido del sitio web pero bloquee una carpeta o página:
Agente de usuario: *
No permitir: /carpeta/
No permitir: /page.html
- Permita el acceso completo al contenido del sitio web pero bloquee un archivo:
Agente de usuario: *
No permitir: /nombre-de-archivo.pdf
- Permita el acceso completo al contenido del sitio web pero bloquee el rastreo de un robot web específico:
Agente de usuario: *
Rechazar:
Agente de usuario: robot de Google
No permitir: /
Para obtener una lista de algunos de los robots web, visite https://www.robotstxt.org/db.html
Necesitamos separar la línea "No permitir" para cada prefijo de URL que queremos excluir. Globing y expresiones regulares no son compatibles con las líneas User-agent o Disallow. El '*' en el campo Usuario-agente es un valor especial que significa "cualquier robot".
Correcto:
Agente de usuario: *
No permitir: /nombre-de-archivo.pdf
No permitir: /carpeta1/
No permitir: /carpeta2/
Error:
Agente de usuario: *
No permitir: /nombre-de-archivo.pdf
No permitir: /carpeta1/ /carpeta2/
No permitir: /carpeta3/*
¿Por qué es importante Robots.txt?
Debemos saber la importancia de /robots.txt porque el uso inadecuado del archivo puede dañar la clasificación de un sitio web . Es el primer archivo que busca el robot del buscador cuando visita un sitio web.
El archivo /robots.txt tiene instrucciones que controlan cómo los robots de los motores de búsqueda ven e interactúan con las páginas web del sitio. Este archivo, así como los bots con los que interactúa, son elementos fundamentales del funcionamiento de un buscador.
El /robots.txt es lo primero que buscan los robots de los motores de búsqueda cuando visitan un sitio web porque quieren saber si tiene permiso para acceder al contenido del sitio y qué carpetas, páginas y archivos pueden rastrear.
Algunas de las razones para tener un archivo /robots.txt en nuestro sitio web pueden incluir:
- Tenemos contenido que queremos bloquear de los motores de búsqueda.
- Hay enlaces pagados o anuncios que necesitan instrucciones especiales para diferentes robots web.
- Queremos limitar el acceso a nuestro sitio de robots acreditados.
- Estamos desarrollando un sitio en vivo, pero no desea que los motores de búsqueda lo indexen todavía.
- Algo o todo lo anterior es cierto, pero no tenemos acceso completo a nuestro servidor web y cómo está configurado.
Otros métodos pueden controlar las razones anteriores, sin embargo, el archivo /robots.txt es un lugar central correcto y sencillo para solucionarlos. Si no tenemos un archivo /robots.txt en nuestro sitio web, los robots del motor de búsqueda tendrán acceso total a nuestro sitio.
¿Cuál es el significado de las palabras clave de la instrucción?
“User-agent:” -> Especifique qué instrucciones aplicar a un robot específico. Una declaración como "User-agent: *" significa que las directivas se aplican a todos los robots. Una declaración como "User-agent: Googlebot" significa que las instrucciones se aplican solo a Googlebot.
“Deshabilitar:” -> Dile a los robots web qué carpetas no deben mirar. Esto significa que si, por ejemplo, no desea que los motores de búsqueda indexen las imágenes en su sitio, puede colocar esas imágenes en una carpeta y excluirlas como "No permitir: /imágenes/".
"Permitir:" -> Dígale a un robot que está bien ver un archivo en una carpeta que ha sido "Rechazado" por otras instrucciones. Por ejemplo:
Agente de usuario: *
No permitir: /imágenes/
Permitir: /images/myphoto.jpg
“Mapa del sitio:” -> Dile a un robot la ubicación del archivo del mapa del sitio del sitio web. Por ejemplo:
Agente de usuario: *
Mapa del sitio: https://www.mysite.com/sitemap.xml
No permitir: /imágenes/
Permitir: /images/myphoto.jpg
Robots Meta tag, ¿es importante?
Hemos discutido la importancia y el uso del archivo /robots.txt en nuestro sitio web, pero hay otra forma de controlar las visitas de robots web a nuestros sitios. Esta otra forma es a través de una metaetiqueta Robots.
<meta name=”ROBOTS” content=”NOINDEX, FOLLOW”>
Como cualquier etiqueta <meta>, debe colocarse en la sección <head> de la página HTML. Además, es mejor ponerlo en cada página de su sitio porque un robot puede encontrar un enlace profundo a cualquier página de su sitio.
El atributo “nombre” debe ser “ROBOTS”.
Los valores válidos para el atributo "contenido" son: "INDEX", "NOINDEX", "FOLLOW", "NOFOLLOW". Se permiten múltiples valores separados por comas, pero obviamente, solo algunas combinaciones tienen sentido. Si no hay una etiqueta <meta> de robots, el valor predeterminado es "INDEX, FOLLOW", por lo que no es necesario especificarlo. Otros posibles usos de la etiqueta robots <meta> son:
<meta name=”ROBOTS” content=”INDEX, NOFOLLOW”>
<meta name=”ROBOTS” content=”NOINDEX, NOFOLLOW”>
El uso de la metaetiqueta está más relacionado con páginas específicas que no queremos que rastreen los robots web. No se usa comúnmente, y es más preciso y sencillo controlar las visitas . web robots a través del archivo /robots.txt.
Conclusión
Hemos visto la importancia de /robots.txt en nuestro sitio web, su sintaxis y lo que podemos hacer con él en los beneficios de nuestro sitio web. También hemos visto el uso de la metaetiqueta robots y sus limitaciones.
Sin embargo, si lo usamos, debemos asegurarnos de que se está usando correctamente. Un archivo /robots.txt incorrecto puede impedir que los robots web indexen las páginas de nuestro sitio web o, lo que es más importante, debemos asegurarnos de que no estamos bloqueando páginas que los motores de búsqueda necesitan clasificar.
—–
Escrito por Arturo S.