”فایل robots.txt“

در این مقاله می خوانید :

Crawler ها این توانایی را دارند که به یک وب سایت آسیب وارد نمایند. ولی با انجام یک سری اقدامات می توان رفتار
آن ها را کنترل نمود. این اقدامات به وسیله robots.txt  صورت می گیرد. فایل robots.txt یک عنصر واقعی ، مهم و تاثیر
گذار است که شما بر روی آن کنترل دارید. این فایل در root  سایت شما قرار می گیرد. این فایل حاوی دستور العمل های
ضروری و مهمی می باشد که وظیفه کنترل Crawler ها را بر عهده دارد و به آن ها می گوید چه قسمتی از سایت شما را
ایندکس کنند و چه قسمت هایی را ایندکس نکنند. برای ایجاد ارتباط با Crawler ها باید از دستورالعملی خاصی استفاده
نمایید که آن ها متوجه شوند. در بیش تر فرم های این فایل از دستور زیر استفاده می کنیم:
User-agent: *
Disallow: /
این دو قسمت خیلی ضروری و مهم می باشند. قسمت اول یعنی User-agent: بیانگر فرمان شما به Crawler ها
می باشد. نشان ستاره(*) نشان می دهد که تمام و انواع Crawler ها را پوشش می دهد ولی این قابل کنترل و تغییر
توسط شما می باشد و می توانید تنها به یک یا چند Crawler اجازه ارتباط دهید.
قسمت دوم یعنی Disallow:  به Crawler می گوید که به چه قسمت هایی اجازه دسترسی ندارد. و علامت اسلش (/)
نشان دهنده تمام داریکتوری ها می باشد. پس این قسمت به Crawler  می گوید از ایندکس کردن داریکتوری ها چشم
پوشی کن.
علامت (:) بیانگر این موضوع است که Crawler ها با دستور مهمی روبه رو هستند و باید به آن توجه کنند. معمولا از Crawler ها خواسته می شود که از اکثر دایرکتوری ها صرفه نظر کنند. به عنوان مثال اگر بخواهید که به Crawler ها
اعلام نمایید که از دایرکتوری های موقتی چشم پوشی نماید به صورت زیر عمل می نماییم:
User-agent: *
Disallow: /tmp/
و شاید شما بخواهید از دایرکتوری های بیشتری چشم پوشی شود:
User-agent: *
Disallow: /tmp/
Disallow: /private/
7
وب سایت جومینا
Joomina.ir
مرکز دانلود افزونه های تخصصی جوملا
اولین پشتیبان جوملا 1.6 و 1.7 در ایران
Disallow: /links/listing.html
در دستور بالا از Crawler ها خواسته می شود که از دایرکتوری های موقت و شخصی و همچنین صفحاتی که شامل لینک
ها است چشم پوشی نمایند. نکته ای که همیشه باید در ذهن داشته باشید این است که Crawler ها فایل robots.txt  را
از بالا به پایین می خوانند پساگر شما می خواهید یک سری فرمان بنویسید باید به چگونه نوشتن آن دقت کنید.
به مثال زیر توجه کنید:
User-agent: *
Disallow: /tmp/
User-agent: CrawlerName
Disallow: /tmp/
Disallow: /links/listing.html
اگر توجه کنید می بینید که در یک فرمان به تمام Crawler  ها اجازه دسترسی و ارتباط داده اید و در فرمانی دیگر تنها به
یک Crawler خاص. در این جا آن Crawler خاص فرمان را نخواهد انجام داد زیرا قبل از آن شما اجازه ارتباط به تمام
Crawler ها را داده اید.
صحیح دستور بالا به صورت زیر می باشد:
User-agent: CrawlerName
Disallow: /tmp/
Disallow: /links/listing.html
User-agent: *
Disallow: /tmp/
User-agent: CrawlerName
Disallow: /tmp/
Disallow: /links/listing.html
User-agent: *
Crawler های موتورهای جست جو متفاوت دارای نام های متفاوتی هستند که اگر شما log وب سرور را بررسی کنید احتمالا نام آن ها را مشاهده خواهید نمود. برخی از آن ها در لیست زیر آورده شده است:
Google: Googlebot
MSN: MSNbot
Yahoo! Web Search: Yahoo SLURP or just SLURP
Ask: Teoma
AltaVista: Scooter
LookSmart: MantraAgent
WebCrawler: WebCrawler
SearchHippo: Fluffy the Spider
لیست بالا تعداد اندکی از Crawler های هستند که باید سایت شما را مورد بررسی قرار دهند.
حال شاید بپرسید دانستن اینکه هر کدام از Crawler ها مربوط به چه موتور جستجویی هستند چه فایده ای دارد من در
جواب باید به شما عرض کنم که ما یکسری spambots و Crawler  مخرب داریم که معمولا به یکسری دلایل معمولا
بی اخلاقانه دوست دارند با سایت ها به ویژه سایت های مهم و حساس ارتباط برقرار نمایند. اگر شما نام آن ها را بدانید به آن
ها اجازه ارتباط با سایت خود و همچنین بررسی اطلاعات شخصی و حساس خود را نخواهید داد. البته تضمین صددرصدی هم
وجود ندارد.

به این مطلب امتیاز دهید

برای دریافت مشاوره رایگان و استعلام قیمت، همین الان شماره خود را وارد کنید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پشتیبانی آنلاین!