شرح لملف robots.txt + محتوى الملف ﻷشهر المواقع العالمية

Mohamed aliraqi

عضو جديد
7 سبتمبر 2012
480
0
0
السلام عليكم ورحمة الله وبركاته

في البداية أود أن اعرف عن robots.txt حسب مفهموي له.


robots.txt عبارة عن ملف بسيط يعطي الصلاحية لمحركات البحث ﻷرشفة المواقع بناءا على مدخوﻻته.

لأشرح اكثر عن الموضوع سأضرب مثال <<< ضربا مبرحا
لو افترضنا عندك نسختين من الموقع نسخة للطباعة + النسخة اﻷصلية,, من المهم أن تحجب إحدى النسخ عن الأرشفة
حتى ﻻ تنطبق عليك سياسة المحتوى المتكرر,, وعليك استثناء احدى النسختين من اﻷرشفة عن طريق ملف robots.txt
باﻹضافة إلى أن ملف robots.txt يساعد على اخفاء محتويات موقعك من اﻷرشفة في حال كان هناك اقسام ﻻ تريد ارشفتها وهي خاصة لك او لمجموعة معينة.
وبما انه هناك أمور ستسثنا من محركات البحث اذا هناك قلة في استهلاك الباندويث وقلة في الضغط على الموقع وبإذن الله كفاءة اعلى ونتيجة أفضل.

مكان ملف robots.txt:
من الهام جدا وجود ملف robots.txt في المجلد الرئيسي للموقع أسفل Public_html
إن لم يكن هناك ملف robots.txt في المجلد الرئيسي لموقعك فسيفترض محركات البحث عدم وجود
الملف في موقعك وستحصل على وجودهم في كل مكان في موقعك.

أضرار ملف robots.txt:
في حال كان لديك ملفات أو مجلدات خاصة ﻻ تريد أرشفتها ﻻ تعتمد على robots.txt في ذلك
وإﻻ ستكشفها في حال وجود ناس يسعون لمعرفة محتوى ملف robots.txt <<< أو ناس ملقوفين

على سبيل المثال وعذرا على هذا المثال ملف الخاص بترايدنت
http://www.traidnt.net/robots.txt
سنجد أن هناك مجلد خاص ﻻ تريد إدارة ترايدنت كشفه لمحركات البحث وهو
Disallow: /Special_volumes_Turki_Alodaani/
بالمقابل كشفنا أحد مجلدات ترايدنت الغير معلنة لذلك افضل حل هو وضع جدار ناري عليها لتجنب أرشفتها.
بدل من إرفاقها في ملف robots.txt

إنشاء ملف robots.txt
يمكنك دراسة محتوى موقعك ومعرفة ماتريد وماﻻ تريد وكتابته الملف بشكل يدوي
أو الاستعانة بالأداة الموجودة بداخل google webmaster tools


تأكيد من أن ملف robots.txt خالي من اﻷخطاء:
توجه إلى الموقع
New Robots.txt Syntax Checker: a validator for robots.txt files
وضع رابط الملف الخاص بك في الصندوق المحدد وستظهر لك النتيجة


ملفات robots.txt للمواقع الشهيرة:
http://www.traidnt.net/robots.txt
https://www.facebook.com/robots.txt
http://www.vbulletin.org/robots.txt
http://www.google.com/robots.txt
http://www.yahoo.com/robots.txt
http://www.msn.com/robots.txt
http://www.alexa.com/robots.txt
http://www.adobe.com/robots.txt
http://www.cpanel.com/robots.txt
http://www.alarabiya.net/robots.txt
http://www.aljazeera.net/robots.txt
http://www.cnn.com/robots.txt
http://www.bbc.com/robots.txt
http://www.hostgator.com/robots.txt

منقول للامانه