به احتمال زیاد میدانید که مجموع بازدیدکنندگان وبسایتها کاربران و رباتها هستند. هر مدیر وب سایت برای کنترل بازدید رباتها نیازمند یک دستورالعمل است، چرا که رباتها زبان دستوری مخصوص به خود را دارند. در این مقاله اهمیت فایل robots. txt مشخص میشود که باید بیشتر در مورد آن بدانید. به طور کلی، این فایل به عنوان راهنما و نگهبان رباتهای جستجو شناخته شده است. هدف اصلی آن محدود کردن رباتها با وارد کردن یک دستورالعمل ساده خواهد بود. فایل robots.txt یک فایل متنی است که اجازه ورود به رباتهای خزنده (Crawler رباتهای موتور جستجوگر گوگل) به صفحات را کنترل میکند. اگر میخواهید اطلاعات زیادی در رابطه با سؤال فایل robots.txt چیست؟ به دست آورید، پیشنهاد میکنیم مطالعه این مطلب را از دست ندهید.
فایل robots.txt چیست؟
با توجه به اینکه رباتها یا موتورهای جستجو پس از ورود به سایت لینکها را دنبال خواهند کرد، پس به طور مداوم از یک سایت به سایت دیگر جا به جا میشوند. در نتیجه با وجود یک فایل جستجو صفحه برای رباتهای خزنده برنامهریزی میشود؛ بنابراین اگر میخواهید مدیریت وب سایت خود را با اقتدار به دست بگیرید لازم است به طور دقیق بدانید که فایل robots.txt چیست؟
نتیجه اطلاعات درون این فایل شامل دستورالعملهایی است که باید در اختیار ربات خزنده قرار بگیرد. اگر وب سایت فاقد فایل robots. txt باشد، در نتیجه ربات به جستجوی سایر اطلاعات در سایت ادامه خواهد داد. این فایل باعث میشود تا دسترسی رباتهای خزنده به مناطق خاصی تحت کنترل باشد.
شک نکنید که ربات تکست برای سایت شما بسیار مفید خواهد بود. هر کدام از صفحات وب سایت دارای درجه اهمیت متفاوتی هستند؛ بنابراین، بیشتر وب مسترها پنل مدیریت وب سایت خود را دور از دسترس موتورهای جستجوگر قرار میدهند.
دلایل اهمیت robots.txt چیست؟
پس از این که دانستید robot txt چیست؟ بهتر است در مورد اهمیت آن مطالبی را با هم مرور کنیم. زبان تمامی رباتهای موتور جستجوگر یکسان نیست و همچنین دستورات وارد شده در فایل نیز برای تمامی موتورهای جستجو کاربرد و کارایی لازم را نخواهد داشت.
به عنوان مثال، ممکن است که ربات گوگل دستور وارد شده در فایل را اجرا کند، اما همان دستور مشابه برای ربات موتور جستجو یاندکس قابل اجرا نباشد. میتوان گفت که دلایل اهمیت این فایل شامل سه مورد زیر است:
تنظیم و کاهش ترافیک رباتها به وب سایت
زمانی که بازدید رباتها از یک وب سایت بیش از اندازه باشد، در نتیجه باید دستوری برای مدیریت ترافیک بازدید رباتها داشته باشید. بر اساس فایل سرور میزبانی وب سایت شما فرایند پردازش و بارگذاری صفحات برای ربات را مشغول نخواهد کرد؛ بنابراین با توجه به فایل ربات ایکس شما به راحتی میتوانید سرورها یا میزبانهای وب سایت را از نظر کارایی و ترافیک محدود کنید.
حذف برخی از صفحات و فایلها در نتایج جستجوی گوگل
اگر رباتهای گوگل وب سایت شما را مورد بررسی قرار دهند و فایل robots. txt دستورالعمل مشخصی نداشته باشد؛ ممکن است در نتایج جستجوی گوگل این صفحات یا فایلها را نمایان کند؛ اما به طور کلی راههای دیگری وجود دارد که رباتهای جستجوگر گوگل میتوانند از طریق لینکها وارد صفحه ایندکس شوند.
راه حل برای جلوگیری از نمایش صفحات یا فایلها در نتایج جستجوی گوگل در اصل اضافه کردن دستورالعمل مشخص در قسمت head است. در این قسمت اگر شما از وردپرس استفاده کنید، همچنین نحوه طراحی وب سایت شما به گونهای باشد که به راحتی بتوانید کد و دستورالعملها را برای هر صفحه انجام دهید، در نتیجه میتوانید روند حذف صفحه از نتایج جستجوی گوگل را کنترل نمایید.
کنترل Crawl Budget
زمانی که تعداد صفحات وب سایت شما زیاد باشد، رباتهای جستجوگر زمان بیشتری برای ایندکس کردن صفحه نیاز خواهند داشت. در نتیجه، این امر میتواند روی رتبهبندی سایت تأثیرات منفی داشته باشد و یکی از مواردی که در انجام خدمات سئو مورد اهمیت است، افزایش کرال باجت است. به همین دلیل با کنترل کردن ویژگی Crawl Budget به راحتی میتوانید بررسی دقیقتری انجام دهید. همچنین توجه داشته باشید که هر Crawl Budget از دو بخش CrawlerRate Limit و CrawlerDemand تشکیل شده است.
معرفی مهمترین دستورات robots.txt
تا اینجا به سؤال فایل robots. txt چیست و اهمیت آن پاسخ دادهایم و در ادامه میخواهیم شرح بیشتری بر این موضوع داشته باشیم. دستورات مهم در فایل به طور کامل به چهار دسته تقسیمبندی میشود که در زیر به همه آنها اشاره میکنیم:
User_agent
دستور User_agent برای یک ربات مشخص استفاده میشود که باید در مواقع نیاز استفاده کرد. این دستورالعمل به دو صورت مشخص در فایل قابل استفاده است. به طور کامل اگر بخواهید تمامی رباتها یک دستورالعمل یکسان را انجام دهند، کافی است به همراه عبارت User_agent از یک نشان ستاره (*) استفاده کنید. مانند:
* :User-agent
این علامت ستاره در برنامهنویسی به معنای همه چیز خواهد بود؛ بنابراین، اگر تنها برای یک ربات خاص دستورالعمل خاصی را صادر میکنید، باید بعد از عبارت User_agent نام ربات جستجو را ذکر نمایید. مانند:
User-agent: *……bot
Disallow
دستور Disallow به ربات اجازه بررسی به بخشهای مشخصی را نخواهد داد؛ البته برای اجرای این دستور باید بعد از عبارت Disallow نام پوشه مد نظر خود را بنویسید. این دستورالعمل به ربات هرگز اجازه ورود به فولدر مشخص شده را نخواهد داد. مانند:
Disallow: /file
Allow
با دستور Allow شما میتوانید بخشهای مجاز برای بررسی ربات را مشخص کنید. دستورالعمل اجازه به ربات داده میشود تا در فولدر مورد نظر به بررسی بپردازد. مانند نمونه:
Allow: /file/images/jahesh.png
Sitemap
این دستورالعمل برای نشان دادن آدرس فایل یا نقشه سایت به ربات نوشته میشود. از آنجایی که صاحبان وب سایتها راههای دسترسی به نقشه سایت را طراحی میکند، پس یکی از راحتترین راهها نوشتن آدرس فایل است.
Sitemap: https://jahesh.org/sitemap_index.xml
محدودیت های robots.txt
دستورات این فایل برای همه موتورهای جستجو یکسان نیستند؛ به طور مثال اگر شما قصد داشته باشید دستوری را مختص به موتور جستجوری گوگل بنویسید باید از دستور User-agent: Googlebot استفاده کنید.
دستورات برای همه ربات های یک موتور جستجو نیز یکسان نیست، شاید بخواهید از یک دستور برای دو ربات استفاده کنید، اما ممکن است یکی از آنها متوجه دستور شود و دیگری مفهوم آن را درک نکند.
نحوه ساخت فایل robots.txt
اکنون میدانید که ساختار فایل بسیار ساده است. نحوه ساخت این فایل به هیچ برنامه خاصی نیاز ندارد. همان Notepad ساده ویندوز یا هر ویرایشگر متن دیگر که فایل خروجی از نوع TXT بدهد، قابل استفاده است. مدیر سایت باید این فایل را بر اساس ساختار سایت به درستی ایجاد کند.
فایل robots.txt در بین فایلهای اصلی وردپرس وجود ندارد، اما مدیر وب سایت آن را ایجاد میکند؛ همچنین به صورت دستی میتوان به فایلهای سایت اضافه کرد. محل آن باید در روت سایت باشد، یعنی داخل پوشه public_html، همان جایی که تمامی فایلهای اصلی سایت مستقیماً در آن قرار دارند.
به این ترتیب دانستید که برای ساخت فایل فقط لازم است یک صفحه txt جدید بسازید. این فایل باید در فرمت یا انکودینگ UTF-8 باشد. شما در این مرحله با توجه به توضیحات بالا قسمتی از اطلاعات موجود در یک فایل را در قالب دستورالعملها اجرا کنید. این داده بعد از ساخت فایل باید در سرور میزبان سایت آپلود شود.
جمع بندی
معمولاً آنقدر هم که فکر میکنید کسب رتبه خوب در نتایج موتورهای جستجو گوگل آسان نیست. اولین قدم در این زمینه توجه به تمام مسائل فنی، سپس نوع محتوا برای شروع میباشد. شما باید برای به دست آوردن نتایج خوب در موتور جستجوگر گوگل یک فایل Robots. txt ایجاد کنید، زیرا با استفاده از جدیدترین روشها میتوانید رتبه سایت را بالا نگه دارید.
ما در این مطلب به سؤال فایل robots. txt چیست؟ پاسخ دادیم که بخشی از پروتکل حذف رباتها (REP) است و مجموعهای از استانداردهای وب محسوب میشود. عملکرد فایل با توجه به نحوه خزیدن رباتها در وب، همچنین دسترسی و فهرستبندی محتوا تنظیم میشود. این دستورالعملهای robot. txt برای «ممنوع کردن» یا «مجاز کردن» رفتار برخی از عوامل کاربر مشخص شدهاند.
سلام
برای سایت های وردپرسی ساخت فایل robots.txt رو باید به صورت دستی انجام بدیم یا خودش درست میکنه؟
سلام
خیر، نیازی نیست، خود وردپرس فایل رو تشکیل میده.