L'importanza di /robots.txt
Pubblicato: 2020-07-27Ultimo aggiornamento il 27 luglio 2020
In un blog precedente, abbiamo discusso dei vantaggi del file sitemap.xml sul nostro sito Web. In questo blog discuteremo dell'importanza del file /robots.txt sul nostro sito web.
Che cos'è /Robots.txt?
Il /robots.txt è un file di testo che si trova nella directory principale del server web del nostro sito web. È un file importante perché viene utilizzato per fornire istruzioni sui contenuti web del nostro sito ai robot web. Web Robots, Crawler o Spiders sono programmi utilizzati dai motori di ricerca per indicizzare il contenuto web di un sito web. Queste istruzioni fornite sono chiamate The Robots Exclusion Protocol.
Il file /robots.txt è un file pubblico a cui è possibile accedere digitando un URL come http://wwwmysite.com/robots.txt. Chiunque può vedere il contenuto del file e le posizioni a cui non si desidera che i robot web accedano. Ciò significa che il file /robots.txt non deve essere utilizzato per nascondere informazioni critiche sul tuo sito web.
/robots.txt è la prima cosa che i robot dei motori di ricerca cercano quando visitano un sito web... Clicca per twittareSintassi e contenuto del file Robot.txt
Le istruzioni fornite nel file /robots.txt includono la posizione della mappa del sito del nostro sito, a quale directory vogliamo e non vogliamo che i robot web accedano e a quali pagine vogliamo e non vogliamo che il robot web acceda. Una semplice istruzione di sintassi del file /robots.txt è:
User-agent: *
Non consentire: /
La riga "User-agent: *" significa che le istruzioni nel file si applicano a tutti i robot. Il "Disallow: /" dice al robot di non eseguire la scansione di nessuna pagina del sito.
Altre istruzioni standard in /robots.txt possono essere:
- Consenti l'accesso completo al contenuto del sito Web ma blocca una cartella o una pagina:
User-agent: *
Non consentire: /cartella/
Non consentire: /page.html
- Consenti l'accesso completo al contenuto del sito Web ma blocca un file:
User-agent: *
Non consentire: /nome-file.pdf
- Consenti l'accesso completo al contenuto del sito web ma blocca la scansione di un robot web specifico:
User-agent: *
Non consentire:
User-agent: Googlebot
Non consentire: /
Per un elenco di alcuni robot Web, visitare https://www.robotstxt.org/db.html
Dobbiamo separare la riga "Disallow" per ogni prefisso URL che vogliamo escludere. Il globing e l'espressione regolare non sono supportati nelle righe User-agent o Disallow. Il '*' nel campo User-agent è un valore speciale che significa "qualsiasi robot".
Corretta:
User-agent: *
Non consentire: /nome-file.pdf
Non consentire: /cartella1/
Non consentire: /cartella2/
Errore:
User-agent: *
Non consentire: /nome-file.pdf
Non consentire: /cartella1/ /cartella2/
Non consentire: /cartella3/*
Perché Robots.txt è importante?
Dovremmo conoscere l'importanza di /robots.txt perché l'uso improprio del file può danneggiare il posizionamento di un sito web . È il primo file che il robot del motore di ricerca cerca quando visita un sito web.
Il file /robots.txt contiene istruzioni che controllano il modo in cui i robot dei motori di ricerca vedono e interagiscono con le pagine web del sito. Questo file, così come i bot con cui interagisce, sono elementi fondamentali del funzionamento di un motore di ricerca.
/robots.txt è la prima cosa che i robot dei motori di ricerca cercano quando visitano un sito Web perché vogliono sapere se dispone dell'autorizzazione per accedere al contenuto del sito e quali cartelle, pagine e file possono essere sottoposti a scansione.
Alcuni dei motivi per avere un file /robots.txt sul nostro sito Web possono includere:
- Abbiamo contenuti che vogliamo bloccare dai motori di ricerca.
- Ci sono link a pagamento o pubblicità che richiedono istruzioni speciali per diversi robot web.
- Vogliamo limitare l'accesso al nostro sito da parte di robot affidabili.
- Stiamo sviluppando un sito live, ma non vuoi che i motori di ricerca lo indicizzino ancora.
- Tutto o parte di quanto sopra è vero, ma non abbiamo pieno accesso al nostro server web e come è configurato.
Altri metodi possono controllare i motivi di cui sopra, tuttavia, il file /robots.txt è un posto centrale giusto e diretto per prendersene cura. Se non disponiamo di un file /robots.txt sul nostro sito Web, i robot dei motori di ricerca avranno pieno accesso al nostro sito.
Qual è il significato delle parole chiave dell'istruzione?
“User-agent:” -> Specifica quali istruzioni applicare a un robot specifico. Una dichiarazione come "User-agent: *" significa che le direttive si applicano a tutti i robot. Una dichiarazione come "User-agent: Googlebot" significa che le istruzioni si applicano solo a Googlebot.
"Disallow:" -> Di' ai robot web quali cartelle non dovrebbero guardare. Ciò significa che se, ad esempio, non desideri che i motori di ricerca indicizzino le immagini sul tuo sito, puoi inserire tali immagini in una cartella ed escluderla come "Disallow: /images/".
"Consenti:" -> Di' a un robot che va bene vedere un file in una cartella che è stata "Non consentita" da altre istruzioni. Per esempio:
User-agent: *
Non consentire: /immagini/
Consenti: /images/myphoto.jpg
“Mappa del sito:” -> Comunica a un robot la posizione del file della mappa del sito del sito web. Per esempio:
User-agent: *
Mappa del sito: https://www.mysite.com/sitemap.xml
Non consentire: /immagini/
Consenti: /images/myphoto.jpg
Robot Meta tag, è importante?
Abbiamo discusso dell'importanza e dell'uso del file /robots.txt sul nostro sito Web, ma esiste un altro modo per controllare la visita dei robot Web ai nostri siti. In questo altro modo è attraverso un Meta tag Robots.
<meta name=”ROBOT” content=”NOINDEX, FOLLOW”>
Come ogni tag <meta>, dovrebbe essere posizionato nella sezione <head> della pagina HTML. Inoltre, è meglio inserirlo in ogni pagina del tuo sito perché un robot può incontrare un deep link a qualsiasi pagina del tuo sito.
L'attributo "nome" deve essere "ROBOT".
I valori validi per l'attributo "content" sono: "INDEX", "NOINDEX", "FOLLOW", "NOFOLLOW". Sono consentiti più valori separati da virgole, ma ovviamente solo alcune combinazioni hanno senso. Se non ci sono tag <meta> robot, l'impostazione predefinita è "INDEX, FOLLOW", quindi non è necessario precisarlo. Altri possibili usi del tag <meta> dei robot sono:
<meta name=”ROBOT” content=”INDEX, NOFOLLOW”>
<meta name=”ROBOT” content=”NOINDEX, NOFOLLOW”>
L'uso del meta tag è più correlato a pagine specifiche di cui non vogliamo che i robot web eseguano la scansione. Non è di uso comune ed è più accurato e diretto controllare la visita robot web tramite il file /robots.txt.
Conclusione
Abbiamo visto l'importanza di /robots.txt sul nostro sito Web, la loro sintassi e cosa possiamo fare con esso nei vantaggi del nostro sito Web. Abbiamo anche visto l'uso del meta tag robots e le sue limitazioni.
Tuttavia, se lo utilizziamo, dobbiamo assicurarci che venga utilizzato correttamente. Un file /robots.txt errato può impedire ai robot web di indicizzare le pagine del nostro sito Web o, in modo più critico, dobbiamo assicurarci di non bloccare le pagine che i motori di ricerca devono classificare.
—–
Scritto da Arturo S.