/robots.txt dosyasının önemi
Yayınlanan: 2020-07-27Son Güncelleme 27 Temmuz 2020
Önceki bir blogda, web sitemizdeki sitemap.xml dosyasının faydalarından bahsetmiştik. Bu blogda, /robots.txt dosyasının web sitemizdeki önemini tartışacağız.
/Robots.Txt Nedir?
/robots.txt, web sitemizin web sunucusunun kök dizininde bulunan bir metin dosyasıdır. Sitemizin web içeriği hakkında web robotlarına talimat vermek için kullanıldığı için önemli bir dosyadır. Web Robotları, Tarayıcılar veya Örümcekler, bir web sitesinin web içeriğini dizine eklemek için arama motorları tarafından kullanılan programlardır. Verilen bu talimatlara Robot Dışlama Protokolü denir.
/robots.txt dosyası, http://wwwmysite.com/robots.txt gibi bir URL yazılarak erişilebilen genel bir dosyadır. Dosyanın içeriğini ve web robotlarının erişmesini istemediğiniz konumları herkes görebilir. Bu, /robots.txt dosyasının web sitenizdeki kritik bilgileri gizlemek için kullanılmaması gerektiği anlamına gelir.
/robots.txt, bir web sitesini ziyaret ederken arama motoru robotlarının ilk aradığı şeydir... Tweetlemek için tıklayınRobot.txt Dosyası Sözdizimi ve İçeriği
/robots.txt dosyasında verilen talimatlar site haritamızın konumunu, web robotlarının hangi dizine erişmesini istediğimizi ve istemediğimizi ve web robotunun hangi sayfalara erişmesini istediğimizi ve istemediğimizi içerir. /robots.txt dosyasının basit bir sözdizimi talimatı şöyledir:
Kullanıcı aracısı: *
İzin verme: /
“User-agent: *” satırı, dosyadaki talimatların tüm robots için geçerli olduğu anlamına gelir. “İzin Verme: /” robota sitedeki hiçbir sayfayı taramamasını söyler.
/robots.txt dosyasındaki diğer standart talimatlar şunlar olabilir:
- Web sitesi içeriğine tam erişime izin verin, ancak bir klasör veya sayfayı engelleyin:
Kullanıcı aracısı: *
İzin verme: /klasör/
İzin verme: /page.html
- Web sitesi içeriğine tam erişime izin verin, ancak bir dosyayı engelleyin:
Kullanıcı aracısı: *
İzin verme: /dosya-adı.pdf
- Web sitesi içeriğine tam erişime izin verin, ancak belirli bir web robotunun taranmasını engelleyin:
Kullanıcı aracısı: *
İzin verme:
Kullanıcı aracısı: Googlebot
İzin verme: /
Bazı web robotlarının listesi için https://www.robotstxt.org/db.html adresini ziyaret edin.
Hariç tutmak istediğimiz her URL öneki için “İzin Verme” satırını ayırmamız gerekiyor. Küre oluşturma ve normal ifade, User-agent veya Disallow satırlarında desteklenmez. User-agent alanındaki '*', "herhangi bir robot" anlamına gelen özel bir değerdir.
Doğru:
Kullanıcı aracısı: *
İzin verme: /dosya-adı.pdf
İzin verme: /klasör1/
İzin verme: /klasör2/
Hata:
Kullanıcı aracısı: *
İzin verme: /dosya-adı.pdf
İzin verme: /klasör1/ /klasör2/
İzin verme: /klasör3/*
Robots.txt Neden Önemli?
/robots.txt dosyasının önemini bilmeliyiz çünkü dosyanın uygunsuz kullanımı bir web sitesinin sıralamasına zarar verebilir. Bir web sitesini ziyaret ederken arama motoru robotunun aradığı ilk dosyadır.
/robots.txt dosyası, arama motoru robotlarının site web sayfalarını nasıl gördüğünü ve bunlarla nasıl etkileşime girdiğini kontrol eden talimatlara sahiptir. Bu dosya ve etkileşime girdiği botlar, bir arama motorunun nasıl çalıştığının temel unsurlarıdır.
/robots.txt, bir web sitesini ziyaret ederken arama motoru robotlarının aradığı ilk şeydir çünkü site içeriğine erişim izni olup olmadığını ve hangi klasör, sayfa ve dosyaların tarayabileceğini bilmek ister.
Web sitemizde /robots.txt dosyasının bulunmasının nedenlerinden bazıları şunlar olabilir:
- Arama motorlarından engellemek istediğimiz içeriğimiz var.
- Farklı web robotları için özel talimatlar gerektiren ücretli bağlantılar veya reklamlar vardır.
- Saygın robotlardan sitemize erişimi sınırlamak istiyoruz.
- Canlı bir site geliştiriyoruz, ancak henüz arama motorlarının onu dizine eklemesini istemiyorsunuz.
- Yukarıdakilerin bazıları veya tümü doğrudur, ancak web sunucumuza ve nasıl yapılandırıldığına tam erişimimiz yoktur.
Diğer yöntemler yukarıdaki nedenleri kontrol edebilir, ancak /robots.txt dosyası bunlarla ilgilenmek için doğru ve basit bir merkezi yerdir. Web sitemizde /robots.txt dosyamız yoksa arama motoru robotları sitemize tam erişime sahip olacaktır.
Talimattaki Anahtar Kelimelerin Anlamı Nedir?
"User-agent:" -> Belirli bir robota hangi talimatların uygulanacağını belirtin. “User-agent: *” gibi bir ifade, direktiflerin tüm robotlar için geçerli olduğu anlamına gelir. "User-agent: Googlebot" gibi bir ifade, talimatların yalnızca Googlebot için geçerli olduğu anlamına gelir.
“İzin Verme:” -> Web robotlarına hangi klasörlere bakmamaları gerektiğini söyleyin. Bu, örneğin arama motorlarının sitenizdeki görselleri dizine eklemesini istemiyorsanız, bu görselleri tek bir klasöre yerleştirebilir ve “Disallow: /images/” gibi hariç tutabilirsiniz.
“İzin Ver:” -> Bir robota, diğer talimatlar tarafından “İzin verilmeyen” bir klasördeki bir dosyayı görmenin uygun olduğunu söyleyin. Örneğin:
Kullanıcı aracısı: *
İzin verme: /images/
İzin ver: /images/myphoto.jpg
“Site Haritası:” -> Bir robota web sitesi site haritası dosyasının konumunu söyleyin. Örneğin:
Kullanıcı aracısı: *
Site Haritası: https://www.mysite.com/sitemap.xml
İzin verme: /images/
İzin ver: /images/myphoto.jpg
Robotlar Meta etiketi, önemli mi?
Web sitemizde /robots.txt dosyasının önemini ve kullanımını tartıştık, ancak web robotlarının sitelerimizi ziyaret etmesini kontrol etmenin başka bir yolu daha var. Bu diğer yol, bir Robots Meta etiketinden geçer.
<meta adı=”ROBOTLAR” içerik=”NOINDEX, TAKİP”>
Herhangi bir <meta> etiketi gibi, HTML sayfasının <head> bölümüne yerleştirilmelidir. Ayrıca, bir robot sitenizdeki herhangi bir sayfaya derin bir bağlantıyla karşılaşabileceğinden, bunu sitenizdeki her sayfaya koymak en iyisidir.
"Ad" özelliği "ROBOTLAR" olmalıdır.
"İçerik" özelliği için geçerli değerler şunlardır: "INDEX", "NOINDEX", "FOLLOW", "NOFOLLOW." Birden çok virgülle ayrılmış değerlere izin verilir, ancak açıkçası yalnızca bazı kombinasyonlar anlamlıdır. Robots <meta> etiketi yoksa, varsayılan "INDEX, FOLLOW" şeklindedir, dolayısıyla bunu hecelemeye gerek yoktur. robots <meta> etiketinin diğer olası kullanımları:
<meta name=”ROBOTLAR” content=”INDEX, NOFOLLOW”>
<meta name=”ROBOTLAR” content=”NOINDEX, NOFOLLOW”>
Meta etiketin kullanımı, web robotlarının taramasını istemediğimiz belirli sayfalarla daha ilgilidir. Yaygın olarak kullanılmaz ve ziyareti kontrol etmek daha doğru ve basittir. /robots.txt dosyası aracılığıyla web robotları.
Çözüm
Web sitemizdeki /robots.txt dosyasının önemini, sözdizimini ve onunla neler yapabileceğimizi web sitemizin faydaları arasında gördük. Robots meta etiketinin kullanımını ve sınırlamalarını da gördük.
Ancak, eğer kullanırsak, doğru kullanıldığından emin olmamız gerekir. Yanlış bir /robots.txt dosyası, web robotlarının web sitesi sayfalarımızı dizine eklemesini engelleyebilir veya daha da önemlisi, arama motorlarının sıralamak için ihtiyaç duyduğu sayfaları engellemediğimizden emin olmamız gerekir.
—–
Arturo S. tarafından yazıldı.