ความสำคัญของ /robots.txt
เผยแพร่แล้ว: 2020-07-27แก้ไขล่าสุดเมื่อ 27 กรกฎาคม 2020
ในบล็อกที่แล้ว เราได้พูดถึงประโยชน์ของไฟล์ sitemap.xml บนเว็บไซต์ของเรา ในบล็อกนี้ เราจะพูดถึงความสำคัญของไฟล์ /robots.txt บนเว็บไซต์ของเรา
/Robots.Txt คืออะไร?
/robots.txt เป็นไฟล์ข้อความที่อยู่ในไดเร็กทอรีรากของเว็บเซิร์ฟเวอร์ของเว็บไซต์ของเรา เป็นไฟล์ที่สำคัญเนื่องจากใช้เพื่อให้คำแนะนำเกี่ยวกับเนื้อหาเว็บของไซต์ของเราแก่โรบ็อตเว็บ Web Robots, Crawlers หรือ Spiders เป็นโปรแกรมที่เครื่องมือค้นหาใช้เพื่อจัดทำดัชนีเนื้อหาเว็บของเว็บไซต์ คำแนะนำที่ให้มาเหล่านี้เรียกว่า The Robots Exclusion Protocol
ไฟล์ /robots.txt เป็นไฟล์สาธารณะที่สามารถเข้าถึงได้โดยการพิมพ์ URL เช่น http://wwwmysite.com/robots.txt ทุกคนสามารถเห็นเนื้อหาของไฟล์และตำแหน่งที่คุณไม่ต้องการให้หุ่นยนต์เว็บเข้าถึงได้ ซึ่งหมายความว่าไม่ควรใช้ไฟล์ /robots.txt เพื่อซ่อนข้อมูลสำคัญบนเว็บไซต์ของคุณ
/robots.txt เป็นสิ่งแรกที่โรบ็อตของเครื่องมือค้นหามองหาเมื่อเข้าชมเว็บไซต์... คลิกเพื่อทวีตไวยากรณ์ไฟล์ Robot.txt และเนื้อหา
คำแนะนำที่ให้ไว้ในไฟล์ /robots.txt ประกอบด้วยตำแหน่งของแผนผังเว็บไซต์ ไดเรกทอรีใดที่เราต้องการและไม่ต้องการให้เว็บโรบ็อตเข้าถึง และหน้าใดที่เราต้องการและไม่ต้องการให้เว็บโรบ็อตเข้าถึง คำสั่งไวยากรณ์อย่างง่ายของไฟล์ /robots.txt คือ:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /
บรรทัด “User-agent: *” หมายความว่าคำสั่งในไฟล์ใช้กับโรบ็อตทั้งหมด “Disallow: /” บอกให้หุ่นยนต์ไม่รวบรวมข้อมูลหน้าใด ๆ บนไซต์
คำแนะนำมาตรฐานอื่นๆ ใน /robots.txt สามารถ:
- อนุญาตให้เข้าถึงเนื้อหาเว็บไซต์ได้อย่างสมบูรณ์ แต่บล็อกโฟลเดอร์หรือเพจ:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /โฟลเดอร์/
ไม่อนุญาต: /page.html
- อนุญาตให้เข้าถึงเนื้อหาเว็บไซต์ได้อย่างสมบูรณ์ แต่บล็อกไฟล์:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /file-name.pdf
- อนุญาตให้เข้าถึงเนื้อหาเว็บไซต์ได้อย่างสมบูรณ์ แต่บล็อกการรวบรวมข้อมูลของโรบ็อตเว็บเฉพาะ:
ตัวแทนผู้ใช้: *
ไม่อนุญาต:
ตัวแทนผู้ใช้: Googlebot
ไม่อนุญาต: /
สำหรับรายชื่อหุ่นยนต์บนเว็บบางส่วน โปรดไปที่ https://www.robotstxt.org/db.html
เราจำเป็นต้องแยกบรรทัด "ไม่อนุญาต" สำหรับทุกคำนำหน้า URL ที่เราต้องการยกเว้น Globing และนิพจน์ทั่วไปไม่ได้รับการสนับสนุนในบรรทัด User-agent หรือ Disallow '*' ในฟิลด์ User-agent เป็นค่าพิเศษที่หมายถึง “หุ่นยนต์ใดๆ”
ถูกต้อง:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /file-name.pdf
ไม่อนุญาต: /folder1/
ไม่อนุญาต: /folder2/
ข้อผิดพลาด:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /file-name.pdf
ไม่อนุญาต: /folder1/ /folder2/
ไม่อนุญาต: /folder3/*
เหตุใด Robots.txt จึงมีความสำคัญ
เราควรทราบถึงความสำคัญของ /robots.txt เนื่องจากการใช้ไฟล์อย่างไม่เหมาะสมอาจส่งผลเสียต่อการ จัดอันดับของเว็บไซต์ เป็นไฟล์แรกที่โรบ็อตเครื่องมือค้นหาค้นหาเมื่อเข้าชมเว็บไซต์
ไฟล์ /robots.txt มีคำแนะนำที่ควบคุมวิธีที่โรบ็อตของเครื่องมือค้นหาเห็นและโต้ตอบกับหน้าเว็บของไซต์ ไฟล์นี้ รวมทั้งบอทที่มันโต้ตอบกัน เป็นองค์ประกอบพื้นฐานของวิธีการทำงานของเสิร์ชเอ็นจิ้น
/robots.txt เป็นสิ่งแรกที่โรบ็อตเครื่องมือค้นหามองหาเมื่อเข้าชมเว็บไซต์ เนื่องจากต้องการทราบว่ามีสิทธิ์เข้าถึงเนื้อหาไซต์หรือไม่ และโฟลเดอร์ หน้า และไฟล์ใดบ้างที่สามารถรวบรวมข้อมูลได้
เหตุผลบางประการในการมีไฟล์ /robots.txt บนเว็บไซต์ของเรา ได้แก่:
- เรามีเนื้อหาที่เราต้องการบล็อกจากเครื่องมือค้นหา
- มีลิงก์หรือโฆษณาที่ต้องชำระเงินซึ่งต้องการคำแนะนำพิเศษสำหรับโรบ็อตเว็บต่างๆ
- เราต้องการจำกัดการเข้าถึงเว็บไซต์ของเราจากโรบ็อตที่มีชื่อเสียง
- เรากำลังพัฒนาเว็บไซต์จริง แต่คุณยังไม่ต้องการให้เครื่องมือค้นหาจัดทำดัชนี
- บางส่วนหรือทั้งหมดข้างต้นเป็นความจริง แต่เราไม่สามารถเข้าถึงเว็บเซิร์ฟเวอร์ของเราได้อย่างสมบูรณ์และวิธีการกำหนดค่า
วิธีอื่นสามารถควบคุมสาเหตุข้างต้นได้ อย่างไรก็ตาม ไฟล์ /robots.txt เป็นศูนย์กลางที่ถูกต้องและตรงไปตรงมาในการดูแล หากเราไม่มีไฟล์ /robots.txt บนเว็บไซต์ของเรา โรบ็อต ของเครื่องมือค้นหา จะสามารถเข้าถึงเว็บไซต์ของเราได้อย่างสมบูรณ์
ความหมายของคำสำคัญของคำสั่งคืออะไร?
“User-agent:” -> ระบุคำแนะนำที่จะใช้กับหุ่นยนต์เฉพาะ คำสั่งเช่น "User-agent: *" หมายถึงคำสั่งที่ใช้กับโรบ็อตทั้งหมด คำสั่งเช่น "User-agent: Googlebot" หมายถึงคำแนะนำที่ใช้กับ Googlebot เท่านั้น
“ไม่อนุญาต:” -> บอกหุ่นยนต์เว็บว่าพวกเขาไม่ควรดูโฟลเดอร์ใด ซึ่งหมายความว่า ตัวอย่างเช่น หากคุณไม่ต้องการให้เสิร์ชเอ็นจิ้นสร้างดัชนีรูปภาพบนไซต์ของคุณ คุณสามารถวางรูปภาพเหล่านั้นไว้ในโฟลเดอร์เดียวและยกเว้นรูปภาพดังกล่าว เช่น “Disallow: /images/”
“อนุญาต:” -> บอกหุ่นยนต์ว่าสามารถเห็นไฟล์ในโฟลเดอร์ที่ “ไม่อนุญาต” ตามคำแนะนำอื่นๆ ได้ ตัวอย่างเช่น:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /images/
อนุญาต: /images/myphoto.jpg
“แผนผังเว็บไซต์:” -> บอกตำแหน่งของไฟล์แผนผังเว็บไซต์ของเว็บไซต์แก่หุ่นยนต์ ตัวอย่างเช่น:
ตัวแทนผู้ใช้: *
แผนผังเว็บไซต์: https://www.mysite.com/sitemap.xml
ไม่อนุญาต: /images/
อนุญาต: /images/myphoto.jpg
Robots Meta tag สำคัญไฉน?
เราได้พูดถึงความสำคัญและการใช้ไฟล์ /robots.txt บนเว็บไซต์ของเราแล้ว แต่มีวิธีอื่นในการควบคุมการเยี่ยมชมเว็บโรบ็อตมายังไซต์ของเรา อีกวิธีหนึ่งคือผ่านแท็ก Meta ของ Robots
<meta name=”ROBOTS” content=”NOINDEX ติดตาม”>
เช่นเดียวกับแท็ก <meta> อื่นๆ ควรวางไว้ในส่วน <head> ของหน้า HTML นอกจากนี้ เป็นการดีที่สุดที่จะวางไว้บนทุกหน้าในไซต์ของคุณ เนื่องจากโรบ็อตสามารถพบลิงก์ในรายละเอียดที่ไปยังหน้าใดก็ได้ในไซต์ของคุณ
แอตทริบิวต์ "name" ต้องเป็น "ROBOTS"
ค่าที่ถูกต้องสำหรับแอตทริบิวต์ "เนื้อหา" ได้แก่ "INDEX" "NOINDEX" "FOLLOW" "NOFOLLOW" อนุญาตให้ใช้ค่าที่คั่นด้วยเครื่องหมายจุลภาคหลายค่า แต่เห็นได้ชัดว่ามีชุดค่าผสมบางค่าเท่านั้นที่สมเหตุสมผล หากไม่มีโรบ็อต <meta> แท็ก ค่าเริ่มต้นคือ “INDEX, FOLLOW” ดังนั้นจึงไม่จำเป็นต้องสะกดคำนั้น การใช้แท็กโรบ็อต <meta> ที่เป็นไปได้อื่นๆ คือ:
<meta name=”ROBOTS” content=”INDEX, NOFOLLOW”>
<ชื่อเมตา=”หุ่นยนต์”เนื้อหา=”NOINDEX, NOFOLLOW”>
การใช้เมตาแท็กมีความเกี่ยวข้องกับหน้าเว็บบางหน้าที่เราไม่ต้องการให้โรบ็อตเว็บรวบรวมข้อมูลมากกว่า ไม่ได้ใช้กันทั่วไป และควบคุมการ เยี่ยม ได้แม่นยำและตรงไปตรงมามากกว่า เว็บโรบ็อตผ่านไฟล์ /robots.txt
บทสรุป
เราได้เห็นความสำคัญของ /robots.txt บนเว็บไซต์ของเรา ไวยากรณ์ และสิ่งที่เราสามารถทำได้ในประโยชน์ของเว็บไซต์ของเรา เราได้เห็นการใช้เมตาแท็กของโรบ็อตและข้อจำกัดด้วยเช่นกัน
แต่ถ้าเราใช้เราต้องแน่ใจว่ามันถูกใช้งานอย่างถูกต้อง ไฟล์ /robots.txt ที่ไม่ถูกต้องสามารถบล็อกเว็บโรบ็อตไม่ให้สร้างดัชนีหน้าเว็บไซต์ของเรา หรือที่สำคัญกว่านั้น เราต้องแน่ใจว่าเราไม่ได้บล็อกหน้าที่เครื่องมือค้นหาจำเป็นต้องจัดอันดับ
—–
เขียนโดย Arturo S.