أهمية /robots.txt
نشرت: 2020-07-27تم التحديث الأخير في 27 يوليو 2020
ناقشنا في مدونة سابقة فوائد ملف sitemap.xml على موقعنا. في هذه المدونة ، سنناقش أهمية ملف /robots.txt على موقعنا على الإنترنت.
ما هو / Robots.txt؟
/robots.txt هو ملف نصي موجود في الدليل الجذر لخادم الويب لموقعنا على الويب. إنه ملف مهم لأنه يستخدم لإعطاء تعليمات حول محتوى الويب لموقعنا إلى روبوتات الويب. روبوتات الويب أو برامج الزحف أو العناكب هي برامج تستخدمها محركات البحث لفهرسة محتوى الويب الخاص بموقع الويب. تسمى هذه التعليمات المعطاة "بروتوكول استبعاد الروبوتات".
ملف /robots.txt هو ملف عام يمكن الوصول إليه عن طريق كتابة عنوان URL مثل http://wwwmysite.com/robots.txt. يمكن لأي شخص رؤية محتوى الملف والمواقع التي لا تريد أن تصل إليها روبوتات الويب. هذا يعني أنه لا ينبغي استخدام ملف /robots.txt لإخفاء المعلومات الهامة على موقع الويب الخاص بك.
يعد /robots.txt أول شيء تبحث عنه روبوتات محرك البحث عند زيارة أحد مواقع الويب ... انقر للتغريدمحتوى ومحتوى ملف Robot.txt
تتضمن الإرشادات الواردة في ملف /robots.txt موقع خريطة موقع موقعنا ، والدليل الذي نريده ولا نريد أن تصل إليه روبوتات الويب ، والصفحات التي نريدها ولا نريد أن يصل إليها روبوت الويب. تعليمات بناء الجملة البسيطة لملف /robots.txt هي:
وكيل المستخدم: *
عدم السماح: /
يعني سطر "User-agent: *" أن التعليمات الواردة في الملف تنطبق على جميع برامج الروبوت. يخبر "Disallow: /" الروبوت بعدم الزحف إلى أي صفحات على الموقع.
يمكن أن تكون الإرشادات القياسية الأخرى في /robots.txt:
- السماح بالوصول الكامل إلى محتوى موقع الويب ولكن مع حظر مجلد أو صفحة:
وكيل المستخدم: *
Disallow: / مجلد /
Disallow: /page.html
- السماح بالوصول الكامل إلى محتوى موقع الويب ولكن مع حظر أحد الملفات:
وكيل المستخدم: *
Disallow: /file-name.pdf
- السماح بالوصول الكامل إلى محتوى موقع الويب ولكن مع حظر الزحف إلى روبوت ويب معين:
وكيل المستخدم: *
عدم السماح:
وكيل المستخدم: Googlebot
عدم السماح: /
للحصول على قائمة ببعض روبوتات الويب ، تفضل بزيارة https://www.robotstxt.org/db.html
نحتاج إلى فصل سطر "Disallow" لكل بادئة عنوان URL نريد استبعادها. لا يتم دعم التعبير النمطي والتعبير العادي في سطور وكيل المستخدم أو سطر Disallow. تعتبر "*" في حقل User-agent قيمة خاصة تعني "أي روبوت".
صحيح:
وكيل المستخدم: *
Disallow: /file-name.pdf
Disallow: / folder1 /
Disallow: / folder2 /
خطأ:
وكيل المستخدم: *
Disallow: /file-name.pdf
Disallow: / folder1 / / folder2 / /
Disallow: / folder3 / *
لماذا يعتبر ملف robots.txt مهمًا؟
يجب أن نعرف أهمية ملف /robots.txt لأن الاستخدام غير السليم للملف يمكن أن يضر بترتيب موقع الويب . إنه الملف الأول الذي يبحث عنه روبوت محرك البحث عند زيارة أحد مواقع الويب.
يحتوي ملف /robots.txt على إرشادات تتحكم في كيفية رؤية روبوتات محرك البحث لصفحات الويب الخاصة بالموقع والتفاعل معها. هذا الملف ، وكذلك الروبوتات التي يتفاعل معها ، هي عناصر أساسية لكيفية عمل محرك البحث.
يعد /robots.txt أول شيء تبحث عنه روبوتات محرك البحث عند زيارة موقع ويب لأنها تريد معرفة ما إذا كان لديها إذن للوصول إلى محتوى الموقع والمجلد والصفحات والملفات التي يمكن الزحف إليها.
يمكن أن تتضمن بعض أسباب وجود ملف /robots.txt على موقعنا على الويب ما يلي:
- لدينا محتوى نريد حظره من محركات البحث.
- هناك روابط أو إعلانات مدفوعة تحتاج إلى تعليمات خاصة لروبوتات الويب المختلفة.
- نريد تقييد الوصول إلى موقعنا من الروبوتات ذات السمعة الطيبة.
- نحن نطور موقعًا حيًا ، لكنك لا تريد أن تقوم محركات البحث بفهرسته بعد.
- بعض أو كل ما سبق صحيح ، لكن ليس لدينا وصول كامل إلى خادم الويب الخاص بنا وكيفية تكوينه.
يمكن أن تتحكم الطرق الأخرى في الأسباب المذكورة أعلاه ، ومع ذلك ، يعد ملف /robots.txt مكانًا مركزيًا صحيحًا ومباشرًا للعناية بها. إذا لم يكن لدينا ملف /robots.txt على موقعنا الإلكتروني ، فسيكون لروبوتات محرك البحث وصول كامل إلى موقعنا.
ما معنى الكلمات الرئيسية في التعليمات؟
"User-agent:" -> حدد التعليمات التي يجب تطبيقها على روبوت معين. عبارة مثل "User-agent: *" تعني أن الأوامر تسري على جميع برامج الروبوت. عبارة مثل "User-agent: Googlebot" تعني أن الإرشادات تنطبق على Googlebot فقط.
"Disallow:" -> أخبر روبوتات الويب بالمجلدات التي يجب ألا تنظر فيها. هذا يعني أنك إذا كنت ، على سبيل المثال ، لا تريد أن تقوم محركات البحث بفهرسة الصور الموجودة على موقعك ، فيمكنك وضع تلك الصور في مجلد واحد واستبعادها مثل "Disallow: / images /."
"السماح:" -> أخبر الروبوت أنه من المقبول رؤية ملف في مجلد تم "عدم السماح به" بواسطة إرشادات أخرى. فمثلا:
وكيل المستخدم: *
Disallow: / images /
السماح: /images/myphoto.jpg
"خريطة الموقع:" -> أخبر الروبوت بموقع ملف خريطة موقع الويب. فمثلا:
وكيل المستخدم: *
خريطة الموقع: https://www.mysite.com/sitemap.xml
Disallow: / images /
السماح: /images/myphoto.jpg
العلامة الوصفية لبرامج الروبوت ، هل هي مهمة؟
لقد ناقشنا أهمية ملف /robots.txt واستخدامه على موقعنا الإلكتروني ، ولكن هناك طريقة أخرى للتحكم في زيارة روبوتات الويب إلى مواقعنا. هذه الطريقة الأخرى هي من خلال علامة وصفية لبرامج الروبوت.
<meta name = ”ROBOTS” content = ”NOINDEX ، FOLLOW”>
مثل أي علامة من نوع <meta> ، يجب وضعها في قسم <head> بصفحة HTML. أيضًا ، من الأفضل وضعها في كل صفحة على موقعك لأن الروبوت يمكن أن يواجه ارتباطًا عميقًا بأي صفحة على موقعك.
يجب أن تكون سمة "الاسم" هي "الروبوتات".
القيم الصالحة لسمة "المحتوى" هي: "INDEX" ، "NOINDEX" ، "FOLLOW" ، "NOFOLLOW". يُسمح بقيم متعددة مفصولة بفواصل ، ولكن من الواضح أن بعض التركيبات فقط هي التي يكون لها معنى. في حالة عدم وجود علامة <meta> لبرامج الروبوت ، يكون الإعداد الافتراضي هو "INDEX ، FOLLOW" ، لذلك لا داعي لتوضيح ذلك. الاستخدامات الأخرى الممكنة لعلامة robots <meta> هي:
<meta name = "ROBOTS" content = "INDEX ، NOFOLLOW">
<meta name = "ROBOTS" content = "NOINDEX ، NOFOLLOW">
يرتبط استخدام العلامة الوصفية بشكل أكبر بصفحات معينة لا نريد أن تقوم روبوتات الويب بالزحف إليها. لا يتم استخدامه بشكل شائع ، وهو أكثر دقة ومباشرة للتحكم في الزيارة روبوتات الويب من خلال ملف /robots.txt.
استنتاج
لقد رأينا أهمية ملف /robots.txt على موقعنا الإلكتروني ، وبناء الجملة الخاص به ، وما يمكننا فعله به في فوائد موقعنا على الويب. لقد رأينا أيضًا استخدام العلامة الوصفية لبرامج الروبوت وقيودها.
ومع ذلك ، إذا استخدمناها ، فنحن بحاجة إلى التأكد من استخدامها بشكل صحيح. يمكن لملف /robots.txt غير الصحيح أن يمنع روبوتات الويب من فهرسة صفحات موقعنا ، أو بشكل أكثر أهمية ، نحتاج إلى التأكد من أننا لا نحظر الصفحات التي تحتاج محركات البحث إلى ترتيبها.
—–
كتبه Arturo S.