L'importance de /robots.txt

Publié: 2020-07-27

Dernière mise à jour le 27 juillet 2020

A robots text document is important Sur un blog précédent, nous avons discuté des avantages du fichier sitemap.xml sur notre site Web. Sur ce blog, nous allons discuter de l'importance du fichier /robots.txt sur notre site Web.

Qu'est-ce que /Robots.Txt ?

Le /robots.txt est un fichier texte situé dans le répertoire racine du serveur Web de notre site Web. Il s'agit d'un fichier important car il est utilisé pour donner des instructions sur le contenu Web de notre site aux robots Web. Les robots Web, les robots d'exploration ou les araignées sont des programmes utilisés par les moteurs de recherche pour indexer le contenu Web d'un site Web. Ces instructions données sont appelées le protocole d'exclusion des robots.

Le fichier /robots.txt est un fichier public accessible en saisissant une URL telle que http://wwwmysite.com/robots.txt. Tout le monde peut voir le contenu du fichier et les emplacements auxquels vous ne voulez pas que les robots Web accèdent. Cela signifie que le fichier /robots.txt ne doit pas être utilisé pour masquer des informations critiques sur votre site Web.

Le /robots.txt est la première chose que les robots des moteurs de recherche recherchent lorsqu'ils visitent un site Web... Cliquez pour tweeter

Syntaxe et contenu du fichier Robot.txt

Les instructions données dans le fichier /robots.txt incluent l'emplacement du plan du site de notre site, le répertoire auquel nous voulons et ne voulons pas que les robots Web accèdent, et les pages auxquelles nous voulons et ne voulons pas que le robot Web accède. Une instruction de syntaxe simple du fichier /robots.txt est :

Agent utilisateur: *
Interdire : /

La ligne « User-agent : * » signifie que les instructions du fichier s'appliquent à tous les robots. Le "Disallow: /" indique au robot de ne pas explorer les pages du site.

D'autres instructions standard dans le fichier /robots.txt peuvent être :

  • Autoriser l'accès complet au contenu du site Web, mais bloquer un dossier ou une page :

Agent utilisateur: *
Interdire : /dossier/
Interdire : /page.html

  • Autoriser l'accès complet au contenu du site Web mais bloquer un fichier :

Agent utilisateur: *
Interdire : /nom-du-fichier.pdf

  • Autorisez l'accès complet au contenu du site Web, mais bloquez l'exploration d'un robot Web spécifique :

Agent utilisateur: *
Refuser:

Agent utilisateur : Googlebot
Interdire : /

robots txt chart

Pour une liste de certains des robots Web, visitez https://www.robotstxt.org/db.html

En savoir plus sur notre référencement en marque blanche - Planifier une réunion

Nous devons séparer la ligne "Disallow" pour chaque préfixe d'URL que nous voulons exclure. Les expressions globales et régulières ne sont pas prises en charge dans les lignes User-agent ou Disallow. Le '*' dans le champ User-agent est une valeur spéciale signifiant "n'importe quel robot".

Corriger:

Agent utilisateur: *
Interdire : /nom-du-fichier.pdf
Interdire : /dossier1/
Interdire : /dossier2/

Erreur:

Agent utilisateur: *
Interdire : /nom-du-fichier.pdf
Interdire : /dossier1/ /dossier2/
Interdire : /dossier3/*

Pourquoi Robots.txt est-il important ?

Nous devrions connaître l'importance du /robots.txt car une mauvaise utilisation du fichier peut nuire au classement d'un site Web . C'est le premier fichier que le robot du moteur de recherche recherche lorsqu'il visite un site Web.

robot talking

Le fichier /robots.txt contient des instructions qui contrôlent la façon dont les robots des moteurs de recherche voient et interagissent avec les pages Web du site. Ce fichier, ainsi que les bots avec lesquels il interagit, sont des éléments fondamentaux du fonctionnement d'un moteur de recherche.

Le /robots.txt est la première chose que les robots des moteurs de recherche recherchent lorsqu'ils visitent un site Web, car ils veulent savoir s'ils sont autorisés à accéder au contenu du site et quels dossiers, pages et fichiers peuvent explorer.

Certaines des raisons d'avoir un fichier /robots.txt sur notre site Web peuvent inclure :

  • Nous avons du contenu que nous voulons bloquer des moteurs de recherche.
  • Il existe des liens payants ou des publicités qui nécessitent des instructions spéciales pour différents robots Web.
  • Nous voulons limiter l'accès à notre site aux robots réputés.
  • Nous développons un site en direct, mais vous ne voulez pas encore que les moteurs de recherche l'indexent.
  • Tout ou partie de ce qui précède est vrai, mais nous n'avons pas un accès complet à notre serveur Web et à sa configuration.

D'autres méthodes peuvent contrôler les raisons ci-dessus, cependant, le fichier /robots.txt est un endroit central juste et simple pour s'en occuper. Si nous n'avons pas de fichier /robots.txt sur notre site Web, les robots des moteurs de recherche auront un accès complet à notre site.

Quelle est la signification des mots clés de l'instruction ?

"User-agent :" -> Spécifiez les instructions à appliquer à un robot spécifique. Une déclaration telle que "User-agent : *" signifie que les directives s'appliquent à tous les robots. Une déclaration telle que "User-agent : Googlebot" signifie que les instructions s'appliquent uniquement à Googlebot.

“Disallow:” -> Indiquez aux robots Web les dossiers qu'ils ne doivent pas consulter. Cela signifie que si, par exemple, vous ne souhaitez pas que les moteurs de recherche indexent les images sur votre site, vous pouvez placer ces images dans un dossier et l'exclure comme « Interdire : /images/ ».

"Autoriser :" -> Dites à un robot qu'il est normal de voir un fichier dans un dossier qui a été "Refusé" par d'autres instructions. Par exemple:

Agent utilisateur: *
Interdire : /images/
Autoriser : /images/maphoto.jpg

"Sitemap:" -> Indiquez à un robot l'emplacement du fichier sitemap du site Web. Par exemple:

Agent utilisateur: *
Plan du site : https://www.monsite.com/sitemap.xml
Interdire : /images/
Autoriser : /images/maphoto.jpg

La balise Meta Robots, est-ce important ?

Nous avons discuté de l'importance et de l'utilisation du fichier /robots.txt sur notre site Web, mais il existe un autre moyen de contrôler la visite des robots Web sur nos sites. Cette autre méthode consiste à utiliser une balise Meta Robots.

<meta name=”ROBOTS” content=”NOINDEX, SUIVRE”>

meta robots tag Comme toute balise <meta>, elle doit être placée dans la section <head> de la page HTML. De plus, il est préférable de le mettre sur chaque page de votre site car un robot peut rencontrer un lien profond vers n'importe quelle page de votre site.

L'attribut "nom" doit être "ROBOTS".

Les valeurs valides pour l'attribut "contenu" sont : "INDEX", "NOINDEX", "FOLLOW", "NOFOLLOW". Plusieurs valeurs séparées par des virgules sont autorisées, mais évidemment, seules certaines combinaisons ont un sens. S'il n'y a pas de balise robots <meta>, la valeur par défaut est "INDEX, FOLLOW", il n'est donc pas nécessaire de l'épeler. Les autres utilisations possibles de la balise robots <meta> sont :

<meta name=”ROBOTS” content=”INDEX, NOFOLLOW”>

<meta name=”ROBOTS” content=”NOINDEX, NOFOLLOW”>

L'utilisation de la balise meta est plus liée à des pages spécifiques que nous ne voulons pas que les robots Web explorent. Il n'est pas couramment utilisé et il est plus précis et plus simple de contrôler les visites robots Web via le fichier /robots.txt.

En savoir plus sur notre conception Web en marque blanche - Planifier une réunion

Conclusion

Nous avons vu l'importance du /robots.txt sur notre site Web, leur syntaxe et ce que nous pouvons en faire dans les avantages de notre site Web. Nous avons vu aussi l'utilisation de la balise meta robots et ses limites.

Cependant, si nous l'utilisons, nous devons nous assurer qu'il est utilisé correctement. Un fichier /robots.txt incorrect peut empêcher les robots Web d'indexer les pages de notre site Web ou, plus important encore, nous devons nous assurer que nous ne bloquons pas les pages que les moteurs de recherche doivent classer.

—–

Écrit parArturo S.