L'importanza di /robots.txt

Pubblicato: 2020-07-27

Ultimo aggiornamento il 27 luglio 2020

A robots text document is important In un blog precedente, abbiamo discusso dei vantaggi del file sitemap.xml sul nostro sito Web. In questo blog discuteremo dell'importanza del file /robots.txt sul nostro sito web.

Che cos'è /Robots.txt?

Il /robots.txt è un file di testo che si trova nella directory principale del server web del nostro sito web. È un file importante perché viene utilizzato per fornire istruzioni sui contenuti web del nostro sito ai robot web. Web Robots, Crawler o Spiders sono programmi utilizzati dai motori di ricerca per indicizzare il contenuto web di un sito web. Queste istruzioni fornite sono chiamate The Robots Exclusion Protocol.

Il file /robots.txt è un file pubblico a cui è possibile accedere digitando un URL come http://wwwmysite.com/robots.txt. Chiunque può vedere il contenuto del file e le posizioni a cui non si desidera che i robot web accedano. Ciò significa che il file /robots.txt non deve essere utilizzato per nascondere informazioni critiche sul tuo sito web.

/robots.txt è la prima cosa che i robot dei motori di ricerca cercano quando visitano un sito web... Clicca per twittare

Sintassi e contenuto del file Robot.txt

Le istruzioni fornite nel file /robots.txt includono la posizione della mappa del sito del nostro sito, a quale directory vogliamo e non vogliamo che i robot web accedano e a quali pagine vogliamo e non vogliamo che il robot web acceda. Una semplice istruzione di sintassi del file /robots.txt è:

User-agent: *
Non consentire: /

La riga "User-agent: *" significa che le istruzioni nel file si applicano a tutti i robot. Il "Disallow: /" dice al robot di non eseguire la scansione di nessuna pagina del sito.

Altre istruzioni standard in /robots.txt possono essere:

Consenti l'accesso completo al contenuto del sito Web ma blocca una cartella o una pagina:

User-agent: *
Non consentire: /cartella/
Non consentire: /page.html

Consenti l'accesso completo al contenuto del sito Web ma blocca un file:

User-agent: *
Non consentire: /nome-file.pdf

Consenti l'accesso completo al contenuto del sito web ma blocca la scansione di un robot web specifico:

User-agent: *
Non consentire:

User-agent: Googlebot
Non consentire: /

robots txt chart

Per un elenco di alcuni robot Web, visitare https://www.robotstxt.org/db.html

Scopri la nostra White Label SEO – Pianifica una riunione

Dobbiamo separare la riga "Disallow" per ogni prefisso URL che vogliamo escludere. Il globing e l'espressione regolare non sono supportati nelle righe User-agent o Disallow. Il '*' nel campo User-agent è un valore speciale che significa "qualsiasi robot".

Corretta:

User-agent: *
Non consentire: /nome-file.pdf
Non consentire: /cartella1/
Non consentire: /cartella2/

Errore:

User-agent: *
Non consentire: /nome-file.pdf
Non consentire: /cartella1/ /cartella2/
Non consentire: /cartella3/*

Perché Robots.txt è importante?

Dovremmo conoscere l'importanza di /robots.txt perché l'uso improprio del file può danneggiare il posizionamento di un sito web . È il primo file che il robot del motore di ricerca cerca quando visita un sito web.

robot talking

Il file /robots.txt contiene istruzioni che controllano il modo in cui i robot dei motori di ricerca vedono e interagiscono con le pagine web del sito. Questo file, così come i bot con cui interagisce, sono elementi fondamentali del funzionamento di un motore di ricerca.

/robots.txt è la prima cosa che i robot dei motori di ricerca cercano quando visitano un sito Web perché vogliono sapere se dispone dell'autorizzazione per accedere al contenuto del sito e quali cartelle, pagine e file possono essere sottoposti a scansione.

Alcuni dei motivi per avere un file /robots.txt sul nostro sito Web possono includere:

Abbiamo contenuti che vogliamo bloccare dai motori di ricerca.
Ci sono link a pagamento o pubblicità che richiedono istruzioni speciali per diversi robot web.
Vogliamo limitare l'accesso al nostro sito da parte di robot affidabili.
Stiamo sviluppando un sito live, ma non vuoi che i motori di ricerca lo indicizzino ancora.
Tutto o parte di quanto sopra è vero, ma non abbiamo pieno accesso al nostro server web e come è configurato.

Altri metodi possono controllare i motivi di cui sopra, tuttavia, il file /robots.txt è un posto centrale giusto e diretto per prendersene cura. Se non disponiamo di un file /robots.txt sul nostro sito Web, i robot dei motori di ricerca avranno pieno accesso al nostro sito.

Qual è il significato delle parole chiave dell'istruzione?

“User-agent:” -> Specifica quali istruzioni applicare a un robot specifico. Una dichiarazione come "User-agent: *" significa che le direttive si applicano a tutti i robot. Una dichiarazione come "User-agent: Googlebot" significa che le istruzioni si applicano solo a Googlebot.

"Disallow:" -> Di' ai robot web quali cartelle non dovrebbero guardare. Ciò significa che se, ad esempio, non desideri che i motori di ricerca indicizzino le immagini sul tuo sito, puoi inserire tali immagini in una cartella ed escluderla come "Disallow: /images/".

"Consenti:" -> Di' a un robot che va bene vedere un file in una cartella che è stata "Non consentita" da altre istruzioni. Per esempio:

User-agent: *
Non consentire: /immagini/
Consenti: /images/myphoto.jpg

“Mappa del sito:” -> Comunica a un robot la posizione del file della mappa del sito del sito web. Per esempio:

User-agent: *
Mappa del sito: https://www.mysite.com/sitemap.xml
Non consentire: /immagini/
Consenti: /images/myphoto.jpg

Robot Meta tag, è importante?

Abbiamo discusso dell'importanza e dell'uso del file /robots.txt sul nostro sito Web, ma esiste un altro modo per controllare la visita dei robot Web ai nostri siti. In questo altro modo è attraverso un Meta tag Robots.

<meta name=”ROBOT” content=”NOINDEX, FOLLOW”>

meta robots tag Come ogni tag <meta>, dovrebbe essere posizionato nella sezione <head> della pagina HTML. Inoltre, è meglio inserirlo in ogni pagina del tuo sito perché un robot può incontrare un deep link a qualsiasi pagina del tuo sito.

L'attributo "nome" deve essere "ROBOT".

I valori validi per l'attributo "content" sono: "INDEX", "NOINDEX", "FOLLOW", "NOFOLLOW". Sono consentiti più valori separati da virgole, ma ovviamente solo alcune combinazioni hanno senso. Se non ci sono tag <meta> robot, l'impostazione predefinita è "INDEX, FOLLOW", quindi non è necessario precisarlo. Altri possibili usi del tag <meta> dei robot sono:

<meta name=”ROBOT” content=”INDEX, NOFOLLOW”>

<meta name=”ROBOT” content=”NOINDEX, NOFOLLOW”>

L'uso del meta tag è più correlato a pagine specifiche di cui non vogliamo che i robot web eseguano la scansione. Non è di uso comune ed è più accurato e diretto controllare la visita robot web tramite il file /robots.txt.

Scopri il nostro Web Design White Label - Pianifica una riunione

Conclusione

Abbiamo visto l'importanza di /robots.txt sul nostro sito Web, la loro sintassi e cosa possiamo fare con esso nei vantaggi del nostro sito Web. Abbiamo anche visto l'uso del meta tag robots e le sue limitazioni.

Tuttavia, se lo utilizziamo, dobbiamo assicurarci che venga utilizzato correttamente. Un file /robots.txt errato può impedire ai robot web di indicizzare le pagine del nostro sito Web o, in modo più critico, dobbiamo assicurarci di non bloccare le pagine che i motori di ricerca devono classificare.

—–

Scritto da Arturo S.