Importanța /roboților.txt
Publicat: 2020-07-27Ultima actualizare pe 27 iulie 2020
Pe un blog anterior, am discutat despre beneficiile fișierului sitemap.xml de pe site-ul nostru web. Pe acest blog, vom discuta despre importanța fișierului /robots.txt de pe site-ul nostru.
Ce este /Robots.Txt?
/robots.txt este un fișier text situat în directorul rădăcină al serverului web al site-ului nostru. Este un fișier important deoarece este folosit pentru a oferi roboților web instrucțiuni despre conținutul web al site-ului nostru. Roboții Web, Crawlerele sau Păianjenii sunt programe utilizate de motoarele de căutare pentru a indexa conținutul web al unui site web. Aceste instrucțiuni date se numesc Protocolul de excludere a roboților.
Fișierul /robots.txt este un fișier public care poate fi accesat tastând o adresă URL precum http://wwwmysite.com/robots.txt. Oricine poate vedea conținutul fișierului și locațiile pe care nu doriți să le acceseze roboții web. Aceasta înseamnă că fișierul /robots.txt nu trebuie utilizat pentru a ascunde informații critice de pe site-ul dvs. web.
/robots.txt este primul lucru pe care roboții motoarelor de căutare îl caută atunci când vizitează un site web... Click To TweetSintaxa și conținutul fișierului Robot.txt
Instrucțiunile date în fișierul /robots.txt includ locația sitemap-ului nostru, ce director dorim și nu dorim să acceseze roboții web și ce pagini vrem și nu vrem să acceseze robotul web. O instrucțiune simplă de sintaxă a fișierului /robots.txt este:
Agent utilizator: *
Nu permite: /
Linia „User-agent: *” înseamnă că instrucțiunile din fișier se aplică tuturor roboților. „Disallow: /” îi spune robotului să nu acceseze cu crawlere nicio pagină de pe site.
Alte instrucțiuni standard din /robots.txt pot fi:
- Permiteți accesul complet la conținutul site-ului web, dar blocați un folder sau o pagină:
Agent utilizator: *
Nu permiteți: /folder/
Nu permiteți: /page.html
- Permiteți accesul complet la conținutul site-ului web, dar blocați un fișier:
Agent utilizator: *
Nu permiteți: /file-name.pdf
- Permiteți accesul complet la conținutul site-ului web, dar blocați accesul cu crawlere a unui anumit robot web:
Agent utilizator: *
Nu permiteți:
Agent utilizator: Googlebot
Nu permite: /
Pentru o listă a unora dintre roboții web, vizitați https://www.robotstxt.org/db.html
Trebuie să separăm linia „Disallow” pentru fiecare prefix URL pe care dorim să-l excludem. Globing și expresia regulată nu sunt acceptate nici în rândurile User-agent, nici în rândurile Disallow. „*” din câmpul User-agent este o valoare specială care înseamnă „orice robot”.
Corect:
Agent utilizator: *
Nu permiteți: /file-name.pdf
Nu permiteți: /folder1/
Nu permiteți: /folder2/
Eroare:
Agent utilizator: *
Nu permiteți: /file-name.pdf
Nu permiteți: /folder1/ /folder2/
Nu permiteți: /folder3/*
De ce este Robots.txt important?
Ar trebui să cunoaștem importanța /robots.txt, deoarece utilizarea necorespunzătoare a fișierului poate afecta clasarea unui site web . Este primul fișier pe care robotul motorului de căutare îl caută atunci când vizitează un site web.
Fișierul /robots.txt are instrucțiuni care controlează modul în care roboții motoarelor de căutare văd și interacționează cu paginile web ale site-ului. Acest fișier, precum și boții cu care interacționează, sunt elemente fundamentale ale modului în care funcționează un motor de căutare.
/robots.txt este primul lucru pe care roboții motoarelor de căutare îl caută atunci când vizitează un site web, deoarece dorește să știe dacă are permisiunea de a accesa conținutul site-ului și ce folder, pagini și fișiere pot accesa cu crawlere.
Unele dintre motivele pentru a avea un fișier /robots.txt pe site-ul nostru web pot include:
- Avem conținut pe care dorim să îl blocăm din motoarele de căutare.
- Există link-uri sau reclame plătite care necesită instrucțiuni speciale pentru diferiți roboți web.
- Dorim să limităm accesul la site-ul nostru de la roboți de renume.
- Dezvoltăm un site live, dar nu doriți ca motoarele de căutare să-l indexeze încă.
- Unele sau toate cele de mai sus sunt adevărate, dar nu avem acces complet la serverul nostru web și la modul în care este configurat.
Alte metode pot controla motivele de mai sus, cu toate acestea, fișierul /robots.txt este un loc central corect și simplu pentru a avea grijă de ele. Dacă nu avem un fișier /robots.txt pe site-ul nostru web, roboții motoarelor de căutare vor avea acces deplin la site-ul nostru.
Care este sensul cuvintelor cheie ale instrucțiunii?
„User-agent:” -> Specificați ce instrucțiuni să aplicați unui anumit robot. O declarație precum „User-agent: *” înseamnă că directivele se aplică tuturor roboților. O declarație precum „User-agent: Googlebot” înseamnă că instrucțiunile se aplică doar pentru Googlebot.
„Disallow:” -> Spuneți roboților web ce foldere nu ar trebui să se uite. Aceasta înseamnă că, dacă, de exemplu, nu doriți ca motoarele de căutare să indexeze imaginile de pe site-ul dvs., atunci puteți plasa acele imagini într-un singur dosar și le puteți exclude ca „Disallow: /images/”.
„Permite:” -> Spune-i unui robot că este în regulă să vadă un fișier într-un folder care a fost „Nepermis” de alte instrucțiuni. De exemplu:
Agent utilizator: *
Nu permiteți: /imagini/
Permite: /images/myphoto.jpg
„Sitemap:” -> Spuneți unui robot locația fișierului sitemap site-ului. De exemplu:
Agent utilizator: *
Harta site-ului: https://www.mysite.com/sitemap.xml
Nu permiteți: /imagini/
Permite: /images/myphoto.jpg
Robots Meta tag, este important?
Am discutat despre importanța și utilizarea fișierului /robots.txt pe site-ul nostru web, dar există o altă modalitate de a controla vizitarea roboților web pe site-urile noastre. Această altă cale este printr-o etichetă Robots Meta.
<meta name=”ROBOTS” content=”NOINDEX, FOLLOW”>
Ca orice etichetă <meta>, aceasta ar trebui să fie plasată în secțiunea <head> a paginii HTML. De asemenea, cel mai bine este să îl puneți pe fiecare pagină de pe site-ul dvs., deoarece un robot poate întâlni un link profund către orice pagină de pe site-ul dvs.
Atributul „nume” trebuie să fie „ROBOȚI”.
Valorile valide pentru atributul „conținut” sunt: „INDEX”, „NOINDEX”, „FOLLOW”, „NOFOLLOW”. Sunt permise mai multe valori separate prin virgulă, dar, evident, doar unele combinații au sens. Dacă nu există etichetă roboți <meta>, valoarea implicită este „INDEX, FOLLOW”, așa că nu este nevoie să scrieți. Alte posibile utilizări ale etichetei roboți <meta> sunt:
<meta name=”ROBOȚI” conținut=”INDEX, NOFOLLOW”>
<meta name=”ROBOTS” content=”NOINDEX, NOFOLLOW”>
Utilizarea etichetei meta este legată mai mult de anumite pagini pe care nu dorim să le acceseze cu crawlere roboții web. Nu este folosit în mod obișnuit și este mai precis și mai simplu de controlat vizitarea roboți web prin fișierul /robots.txt.
Concluzie
Am văzut importanța /robots.txt pe site-ul nostru web, sintaxa lor și ce putem face cu el în beneficiile site-ului nostru. Am văzut, de asemenea, utilizarea metaetichetei roboți și limitările acesteia.
Cu toate acestea, dacă îl folosim, trebuie să ne asigurăm că este utilizat corect. Un fișier /robots.txt incorect poate bloca roboții web să indexeze paginile site-ului nostru web sau, mai important, trebuie să ne asigurăm că nu blocăm paginile pe care motoarele de căutare trebuie să le clasifice.
—–
Scris de Arturo S.