Pentingnya /robots.txt
Diterbitkan: 2020-07-27Terakhir Diperbarui pada 27 Juli 2020
Pada blog sebelumnya, kita telah membahas manfaat dari file sitemap.xml pada website kita. Di blog ini, kita akan membahas pentingnya file /robots.txt di website kita.
Apa Itu /Robots.Txt?
/robots.txt adalah file teks yang terletak di direktori root server web situs web kami. Ini adalah file penting karena digunakan untuk memberikan instruksi tentang konten web situs kami ke robot web. Robot Web, Crawler, atau Spider adalah program yang digunakan oleh mesin pencari untuk mengindeks konten web dari sebuah situs web. Instruksi yang diberikan ini disebut Protokol Pengecualian Robot.
File /robots.txt adalah file publik yang dapat diakses dengan mengetikkan URL seperti http://wwwmysite.com/robots.txt. Siapa pun dapat melihat konten file, dan lokasi yang tidak ingin diakses oleh robot web. Ini berarti bahwa file /robots.txt tidak boleh digunakan untuk menyembunyikan informasi penting di situs web Anda.
/robots.txt adalah hal pertama yang dicari robot mesin pencari saat mengunjungi situs web... Klik Untuk TweetSintaks dan Konten File Robot.txt
Instruksi yang diberikan dalam file /robots.txt meliputi lokasi sitemap kita, direktori apa yang kita inginkan dan tidak ingin diakses oleh robot web, dan halaman apa yang kita inginkan dan tidak ingin diakses oleh robot web. Instruksi sintaks sederhana dari file /robots.txt adalah:
Agen pengguna: *
Larang: /
Baris “User-agent: *” berarti bahwa instruksi dalam file berlaku untuk semua robot. "Disallow: /" memberi tahu robot untuk tidak merayapi halaman apa pun di situs.
Instruksi standar lainnya di /robots.txt dapat berupa:
- Izinkan akses penuh ke konten situs web tetapi blokir folder atau halaman:
Agen pengguna: *
Larang: /folder/
Larang: /page.html
- Izinkan akses penuh ke konten situs web tetapi blokir file:
Agen pengguna: *
Larang: /nama-file.pdf
- Izinkan akses penuh ke konten situs web tetapi blokir perayapan robot web tertentu:
Agen pengguna: *
Melarang:
Agen-pengguna: Googlebot
Larang: /
Untuk daftar beberapa robot web, kunjungi https://www.robotstxt.org/db.html
Kita perlu memisahkan baris “Disallow” untuk setiap awalan URL yang ingin kita kecualikan. Globing dan ekspresi reguler tidak didukung di baris User-agent atau Disallow. '*' di bidang Agen-pengguna adalah nilai khusus yang berarti "robot apa pun".
Benar:
Agen pengguna: *
Larang: /nama-file.pdf
Larang: /folder1/
Larang: /folder2/
Kesalahan:
Agen pengguna: *
Larang: /nama-file.pdf
Larang: /folder1/ /folder2/
Larang: /folder3/*
Mengapa Robots.txt Penting?
Kita harus mengetahui pentingnya /robots.txt karena penggunaan file yang tidak tepat dapat merusak peringkat situs web . Ini adalah file pertama yang dicari oleh robot mesin pencari ketika mengunjungi sebuah situs web.
File /robots.txt memiliki instruksi yang mengontrol bagaimana robot mesin pencari melihat dan berinteraksi dengan halaman web situs. File ini, serta bot yang berinteraksi dengannya, adalah elemen mendasar tentang cara kerja mesin pencari.
/robots.txt adalah hal pertama yang dicari oleh robot mesin pencari ketika mengunjungi situs web karena ingin mengetahui apakah situs tersebut memiliki izin untuk mengakses konten situs dan folder, halaman, dan file apa yang dapat dirayapi.
Beberapa alasan untuk memiliki file /robots.txt di situs web kami dapat mencakup:
- Kami memiliki konten yang ingin kami blokir dari mesin pencari.
- Ada tautan atau iklan berbayar yang memerlukan instruksi khusus untuk robot web yang berbeda.
- Kami ingin membatasi akses ke situs kami dari robot terkemuka.
- Kami sedang mengembangkan situs langsung, tetapi Anda belum ingin mesin pencari mengindeksnya.
- Beberapa atau semua hal di atas benar, tetapi kami tidak memiliki akses penuh ke server web kami dan bagaimana konfigurasinya.
Metode lain dapat mengontrol alasan di atas, namun file /robots.txt adalah tempat sentral yang tepat dan langsung untuk menanganinya. Jika kami tidak memiliki file /robots.txt di situs web kami, robot mesin pencari akan memiliki akses penuh ke situs kami.
Apa Arti Kata KUNCI Instruksi?
“User-agent:” -> Tentukan instruksi apa yang akan diterapkan pada robot tertentu. Pernyataan seperti "User-agent: *" berarti arahan berlaku untuk semua robot. Pernyataan seperti “User-agent: Googlebot” berarti instruksi hanya berlaku untuk Googlebot.
"Larang:" -> Beri tahu robot web folder apa yang tidak boleh mereka lihat. Artinya, jika, misalnya, Anda tidak ingin mesin telusur mengindeks gambar di situs Anda, Anda dapat menempatkan gambar tersebut ke dalam satu folder dan mengecualikannya seperti “Disallow: /images/.”
“Allow:” -> Beri tahu robot bahwa tidak apa-apa melihat file di folder yang telah “Disallowed” oleh instruksi lain. Sebagai contoh:
Agen pengguna: *
Larang: /gambar/
Izinkan: /images/myphoto.jpg
“Peta Situs:” -> Beri tahu robot lokasi file peta situs situs web. Sebagai contoh:
Agen pengguna: *
Peta Situs: https://www.mysite.com/sitemap.xml
Larang: /gambar/
Izinkan: /images/myphoto.jpg
Meta tag Robot, apakah penting?
Kami telah membahas pentingnya dan penggunaan file /robots.txt di situs web kami, tetapi ada cara lain untuk mengontrol kunjungan robot web ke situs kami. Cara lain ini adalah melalui tag Meta Robot.
<meta name=”ROBOTS” content=”NOINDEX, FOLLOW”>
Seperti tag <meta> lainnya, tag ini harus ditempatkan di bagian <head> pada halaman HTML. Selain itu, yang terbaik adalah meletakkannya di setiap halaman di situs Anda karena robot dapat menemukan tautan dalam ke halaman mana pun di situs Anda.
Atribut "nama" harus "ROBOTS".
Nilai yang valid untuk atribut "konten" adalah: "INDEX", "NOINDEX", "FOLLOW", "NOFOLLOW". Beberapa nilai yang dipisahkan koma diperbolehkan, tetapi jelas, hanya beberapa kombinasi yang masuk akal. Jika tidak ada tag <meta> robot, defaultnya adalah “INDEX, FOLLOW”, jadi tidak perlu mengejanya. Kemungkinan penggunaan lain dari tag <meta> robots adalah:
<meta name=”ROBOT” content=”INDEX, NOFOLLOW”>
<meta name=”ROBOT” content=”NOINDEX, NOFOLLOW”>
Penggunaan meta tag lebih terkait dengan halaman tertentu yang tidak ingin dijelajahi oleh robot web. Ini tidak umum digunakan, dan lebih akurat dan mudah untuk mengontrol kunjungan robot web melalui file /robots.txt.
Kesimpulan
Kami telah melihat pentingnya /robots.txt di situs web kami, sintaksnya, dan apa yang dapat kami lakukan dengannya dalam manfaat situs web kami. Kami juga telah melihat penggunaan tag meta robot dan batasannya.
Namun, jika kita menggunakannya, kita perlu memastikan itu digunakan dengan benar. File /robots.txt yang salah dapat memblokir robot web dari pengindeksan halaman situs web kami, atau lebih penting lagi, kami perlu memastikan bahwa kami tidak memblokir halaman yang perlu diberi peringkat oleh mesin pencari.
—–
Ditulis oleh Arturo S.