
robots.txt چیست ؟

در مورد Robots.txt چه میدانید؟ آیا میدانید که فایل robots.txt در چه مواردی کاربرد دارد؟ با آی اِم تی همراه باشید تا در این مقاله به معرفی و بررسی این مقوله مهم که فایل Robots.txt چیست و چه نقشی در بحث بهینهسازی سایتها در موتورهای جستجو دارد میپردازیم.
همانطور که همهی ما میدانیم، رباتهای موتورهای جستجو پررنگترین نقش ممکن برای معرفی کامل یک سایت به موتورهای جستجو را ایفا میکنند. گوگل به عنوان بزرگترین مرجع و گستردهترین شبکه در این زمینه، رباتهای اختصاصی و عمومی زیادی گسترش داده است. وبمسترهای موفق همواره عملکرد و تغییرات این رباتها را دنبال کرده و مطابق با استانداردهای آنان پیشروی میکنند.
اما این رباتها به چه صورت به سایتهای گوناگون دسترسی پیدا میکنند؟ چطور میتوان دسترسی این رباتها به محتوا یا صفحات خاصی از سایتمان را محدود کنیم یا به آنها دسترسی کامل بدهیم؟ برای این مورد، تکنیکی ساده و در عین حال فوقالعاده مهم و حیاتی وجود دارد. این تکنیک، استفاده از یک فایل متنی موسوم به Robots.txt است که با کمک آن و درج دستورات تحت وب میتوان کارهای مختلفی از جمله ایجاد دسترسی یا محدودسازی ربات موتورهای جستجو را انجام داد.
اهمیت و بهینهسازی این فایل میتواند نقش بسیار مفیدی در پیشرفت سایت اینترنتی شما داشته باشد و درست برعکس، بیتوجهی و بیدقتی در کار با آن، ممکن است به راحتی رتبه سایت شما را چندین برابر بدتر کند. ما در این مقاله قصد داریم تا شما را با ماهیت فایلهای Robots.txt آشنا کرده و اهمیت بسیار زیاد آنها برای کسب موفقیت بهتر در فرآیندهای سئو به شما بازگو کنیم.
فایل Robots.txt چیست؟
یک Robots.txt درواقع یک فایل متنی ساده است که در مسیر اصلی فضای سایت شما یا روت دایرکتوری (Root Directory) قرار میگیرد. در حقیقت وظیفه این فایل معرفی بخشهای قابل دسترسی و بخشهای محدود شده برای دسترسی رباتها یا با تعریفی دقیقتر، خزندگان سطح وب (Web Crawlers) که از سوی موتورهای جستجو به منظور بررسی و ثبت اطلاعات سایتها ایجاد شده اند میباشد.
با درج دستوراتی خاص در این فایل، شما میتوانید به رباتهای موتورهای جستجو بگوئید که کدام صفحات، کدام فایلها و کدام بخشهای سایت شما را دیده و آنها را ایندکس کنند و کدام صفحات را نادیده بگیرند. به عبارت دیگر، اولین چیزی که رباتهای موتورهای جستجو با آن برخورد میکنند، همین فایل Robots.txt است. به محض رویارویی با این فایل، خزندگان سطح وب شروع به بررسی محتوا و لیست داخل این فایل کرده تا بخشهای قابل دسترسی را پیدا کنند.
همانطور که گفته شد، این فایل باید در روت اصلی هاست شما قرار بگیرد. در این حالت آدرس دسترسی به این فایل به صورت زیر خواهد بود :
www.YourWebsite.com/robots.txt
اگر فایل robots.txt به درستی تهیه و آپلود نشود چه میشود؟
نتیجه این مورد بستگی به نوع مشکل خواهد داشت. اگر فایل مذکور با فرمت استاندارد و صحیح ایجاد نشده باشد و یا اطلاعات و دستورات داخل آن قادر به شناسایی نباشند، رباتهای موتورهای جستجو همچنان به دسترسی به اطلاعات سایت شما ادامه داده و میتوانند آنها را ایندکس کنند. به عبارت دیگر، رباتها فقط زمانی تغییر رفتار میدهند که دستور دقیق و منطبق با آن رفتار را از طریق متون داخل این فایل دریافت کرده باشند. در غیر این صورت آنها به رفتار طبیعی خود یعنی بررسی و ایندکس کردن تمام بخشهای سایت ادامه خواهند داد.
اگر سایت شما فایل robots.txt را نداشته باشد چه اتفاقی میافتد؟
اگر این فایل در هاست سایت شما آپلود نشده باشد، خزندگان و رباتهای موتورهای جستجو امکان دسترسی به تمام صفحات عمومی را خواهند داشت و قادر هستند تا تمام محتوای سایت شما را ایندکس کنند.
برخی از مهمترین دلایل استفاده از robots.txt
1. عدم استفاده از فایل robots.txt میتواند به افت عملکرد بهینه سایت دامن بزند
وبسایتهای فعال به ویژه وبسایتهای پربازدید و بزرگ، روزانه هزاران بار توسط رباتهای گوناگون از سمت موتورهای جستجو مورد بازدید و بررسی قرار میگیرند. هر ربات یا به اصطلاح خزنده (Crawler) طی یک فرآیند دومرحلهای (بررسی و سپس ایندکس) اقدام به جمعآوری اطلاعات از سایتها میکند. این فرآیند شامل بررسی تمام بخشهای سایت شما است. حالا فرض کنید به صورت روزانه صدها یا هزاران ربات شروع به بررسی و جمعآوری اطلاعات از سایت شما میکنند و در این صورت، عملکرد بهینه سایت شما و سرعت بارگذاری اطلاعات آن برای مرورگرها تحتالشعاع قرار خواهد گرفت.
بدیهیست که رفت و آمد این حجم از رباتها میتواند تا حد قابل توجهی بازدهی کلی سایت را با شرایط نامناسبی همراه کند. البته اگرچه این موضوع برای سایتهایی که بازدید کمتری دارند بسیار کمتر به چشم میآید اما برای سایتهای پربازدید که به خودی خود باید روزانه ترافیک بازدید از سمت هزاران کاربر را هندل کنند، اضافه شدن ترافیک زیاد این رباتها نیز ممکن است دردسرساز باشد.
در این مواقع اغلب وبمسترها به راحتی و با استفاده از robots.txt دسترسی رباتهای موتورهای جستجو را به بخشهای مختلف و مشخص شدهای که اهمیت چندانی برای سئو و کسب رتبه در موتورهای جستجو ندارند را محدود میکنند. در این حالت نه تنها سرور سایت با ترافیک سبکتری فعالیت خواهد کرد، بلکه مراحل بررسی و جمعآوری اطلاعات و سپس ایندکس کردن آنها توسط رباتها نیز به مقدار بسیار زیادی سریعتر خواهد شد.
2. با کمک این فایل میتوان دسترسی موتورهای جستجو را مدیریت کرد
محدود کردن دسترسی خزندگان موتورهای جستجو به صفحات، فایلها و محتوای انتخابی سایتها رایجترین دلیل استفاده از فایل robots.txt است.
اگر برای شما این سؤال پیش آمده است که چرا باید بعضی از صفحات یا فایلها را ایندکس نکنیم، در جواب باید گفت که در بسیاری از موارد، ایندکس شدن و معرفی شدن یک صفحه یا فایل از یک سایت در موتورهای جستجو میتواند نتایج نامناسبی به همراه داشته باشد.
به عنوان مثال شاید یک وبمستر قصد انتشار مطلبی خاص را داشته باشد که مخاطبین آن مطلب نیز افرادی خاص و منتخب هستند. این مطلب ممکن است از لحاظ بعضی شرایطی، برخی از قوانین موتورهای جستجو را نقض کند و یا شامل محتوایی باشد که امکان معرفی آن به صورت عمومی وجود نداشته باشد. در این صورت میتوان با کمک فایل Robots.txt دسترسی موتورهای جستجو به این صفحات یا فایلها را محدود کرد.
از بارزترین مثالها در این زمینه، سایتهای اشتراک فایل غیرقانونی از جمله سایتهای تورنت هستند. خیلی از این سایتها اجازه دسترسی به محتوای داخلیشان را به رباتهای موتورهای جستجو نمیدهند و به جای آن جستجوگر داخلی خودشان را به کاربران پیشنهاد میکنند. چون اگر محتوای این سایتها توسط رباتها شناسایی شوند، این سایتها به خاطر ارائه محتوای غیرقانونی نه تنها رتبه و جایگاه خود را در موتورهای جستجو از دست میدهند، بلکه مسائل مربوط به حقوق کپیرایت و مسائلی از این قبیل نیز گریبانگیرشان خواهد شد.
3. استفاده از فایل robots.txt میتواند در مدیریت لینکها کاربردی باشد
از دیگر مزایای استفاده از robots.txt امکان مدیریت لینکها و آدرس صفحات (URL) است. در بحث سئو مسئلهای با عنوان مخفیسازی آدرس صفحات یا URL Cloacking وجود دارد. این بحث درواقع نوعی تکنیک سئو برای پنهان کردن آدرس صفحات از دید کاربران و یا موتورهای جستجو است. با کمک robots.txt میتوان این مدل لینکها را مدیریت کرده و آدرس آنها را پنهان کرد.
بیشترین کاربرد این مورد در استفاده از لینکهای مربوط به بحث "سیستم همکاری در فروش" یا "Affiliate Marketing" میباشد. در این حالت، شما میتوانید لینکهای ایجاد شده در سیستم Affiliate که با عنوان Affiliate Links شناخته میشوند را مدیریت کرده و آدرس آنها را مخفی کنید تا کاربران به نوعی مجبور به کلیک روی آنها شوند.
توجه کنید که این تکنیک فقط باید توسط افراد حرفهای انجام شود. چراکه URL Cloacking یکی از تکنیکهای سئوی کلاه سیاه است و در صورتی که به درستی آن را پیادهسازی نکنید، متهم به نقض قوانین موتورهای جستجو شده و شامل جریمههای گوگل خواهید شد.