نقشه ی سایت و فایل robot.txt

نقشه ی سایت و فایل robot.txt چیست ؟

فایل Robots.txt چیست؟

یک Robots.txt درواقع یک فایل متنی ساده است که در مسیر اصلی فضای سایت شما یا روت دایرکتوری (Root Directory) قرار می‌گیرد .

در حقیقت وظیفه این فایل معرفی بخش‌های قابل دسترسی و بخش‌های محدود شده برای دسترسی ربات‌ها یا با تعریفی دقیق‌تر ، خزندگان سطح وب (Web Crawlers) که از سوی موتورهای جستجو به منظور بررسی و ثبت اطلاعات سایت‌ها ایجاد شده اند می‌باشد .

با درج دستوراتی خاص در این فایل ، شما می‌توانید به ربات‌های موتورهای جستجو بگوئید که کدام صفحات ، کدام فایل‌ها و کدام بخش‌های سایت شما را دیده و آن‌ها را ایندکس کنند و کدام صفحات را نادیده بگیرند .

به عبارت دیگر، اولین چیزی که ربات‌های موتورهای جستجو با آن برخورد می‌کنند، همین فایل Robots.txt است. به محض رویارویی با این فایل، خزندگان سطح وب شروع به بررسی محتوا و لیست داخل این فایل کرده تا بخش‌های قابل دسترسی را پیدا کنند.

عوامل مهم در استفاده robots.txt

1. با کمک این فایل می‌توان دسترسی موتورهای جستجو را مدیریت کرد :

محدود کردن دسترسی خزندگان موتورهای جستجو به صفحات، فایل‌ها و محتوای انتخابی سایت‌ها رایج‌ترین دلیل استفاده از فایل robots.txt است .

اگر برای شما این سؤال پیش آمده است که چرا باید بعضی از صفحات یا فایل‌ها را ایندکس نکنیم ، در جواب باید گفت که در بسیاری از موارد ، ایندکس شدن و معرفی شدن یک صفحه یا فایل از یک سایت در موتورهای جستجو می‌تواند نتایج نامناسبی به همراه داشته باشد .

به عنوان مثال شاید یک وب‌مستر قصد انتشار مطلبی خاص را داشته باشد که مخاطبین آن مطلب نیز افرادی خاص و منتخب هستند .

این مطلب ممکن است از لحاظ بعضی شرایطی ، برخی از قوانین موتورهای جستجو را نقض کند و یا شامل محتوایی باشد که امکان معرفی آن به صورت عمومی وجود نداشته باشد . در این صورت می‌توان با کمک فایل Robots.txt دسترسی موتورهای جستجو به این صفحات یا فایل‌ها را محدود کرد .

از بارزترین مثال‌ها در این زمینه ، سایت‌های اشتراک فایل غیرقانونی از جمله سایت‌های تورنت هستند . خیلی از این سایت‌ها اجازه دسترسی به محتوای داخلیشان را به ربات‌های موتورهای جستجو نمی‌دهند و به جای آن جستجوگر داخلی خودشان را به کاربران پیشنهاد می‌کنند .

چون اگر محتوای این سایت‌ها توسط ربات‌ها شناسایی شوند، این سایت‌ها به خاطر ارائه محتوای غیرقانونی نه تنها رتبه و جایگاه خود را در موتورهای جستجو از دست می‌دهند، بلکه مسائل مربوط به حقوق کپی‌رایت و مسائلی از این قبیل نیز گریبان‌گیرشان خواهد شد .

نقشه ی سایت و فایل robot.txt

2. عدم استفاده از فایل robots.txt می‌تواند به افت عملکرد بهینه سایت دامن بزند :

وب‌سایت‌های فعال به ویژه وب‌سایت‌های پربازدید و بزرگ ، روزانه هزاران بار توسط ربات‌های گوناگون از سمت موتورهای جستجو مورد بازدید و بررسی قرار می‌گیرند .

هر ربات یا به اصطلاح خزنده (Crawler) طی یک فرآیند دومرحله‌ای (بررسی و سپس ایندکس) اقدام به جمع‌آوری اطلاعات از سایت‌ها می‌کند . این فرآیند شامل بررسی تمام بخش‌های سایت شما است .

حالا فرض کنید به صورت روزانه صدها یا هزاران ربات شروع به بررسی و جمع‌آوری اطلاعات از سایت شما می‌کنند و در این صورت، عملکرد بهینه سایت شما و سرعت بارگذاری اطلاعات آن برای مرورگرها تحت‌الشعاع قرار خواهد گرفت .

بدیهی‌ست که رفت و آمد این حجم از ربات‌ها می‌تواند تا حد قابل توجهی بازدهی کلی سایت را با شرایط نامناسبی همراه کند .

البته اگرچه این موضوع برای سایت‌هایی که بازدید کمتری دارند بسیار کمتر به چشم می‌آید اما برای سایت‌های پربازدید که به خودی خود باید روزانه ترافیک بازدید از سمت هزاران کاربر را هندل کنند، اضافه شدن ترافیک زیاد این ربات‌ها نیز ممکن است دردسرساز باشد .

در این مواقع اغلب وب‌مسترها به راحتی و با استفاده از robots.txt دسترسی ربات‌های موتورهای جستجو را به بخش‌های مختلف و مشخص شده‌ای که اهمیت چندانی برای سئو و کسب رتبه در موتورهای جستجو ندارند را محدود می‌کنند .

در این حالت نه تنها سرور سایت با ترافیک سبک‌تری فعالیت خواهد کرد، بلکه مراحل بررسی و جمع‌آوری اطلاعات و سپس ایندکس کردن آن‌ها توسط ربات‌ها نیز به مقدار بسیار زیادی سریع‌تر خواهد شد .

3. استفاده از فایل robots.txt می‌تواند در مدیریت لینک‌ها کاربردی باشد :

از دیگر مزایای استفاده از robots.txt امکان مدیریت لینک‌ها و آدرس صفحات (URL) است . در بحث سئو مسئله‌ای با عنوان مخفی‌سازی آدرس صفحات یا URL Cloacking وجود دارد .

این بحث درواقع نوعی تکنیک سئو برای پنهان کردن آدرس صفحات از دید کاربران و یا موتورهای جستجو است . با کمک robots.txt می‌توان این مدل لینک‌ها را مدیریت کرده و آدرس آن‌ها را پنهان کرد .

بیشترین کاربرد این مورد در استفاده از لینک‌های مربوط به بحث “سیستم همکاری در فروش” یا “Affiliate Marketing” می‌باشد .

در این حالت ، شما می‌توانید لینک‌های ایجاد شده در سیستم Affiliate که با عنوان Affiliate Links شناخته می‌شوند را مدیریت کرده و آدرس آن‌ها را مخفی کنید تا کاربران به نوعی مجبور به کلیک روی آن‌ها شوند.

توجه کنید که این تکنیک فقط باید توسط افراد حرفه‌ای انجام شود. چراکه URL Cloacking یکی از تکنیک‌های سئوی کلاه سیاه است و در صورتی که به درستی آن را پیاده‌سازی نکنید ، متهم به نقض قوانین موتورهای جستجو شده و شامل جریمه‌های گوگل خواهید شد .

آشنایی با دستورات فایل robots.txt و کاربرد آن‌ها :

فایل robots.txt سایت شما از دو فرمان کلی پیروی می‌کند که برای ربات گوگل GoogleBot یک دستور دیگر نیز اضافه می‌شود .

با به‌کارگیری این دو دستور، شما قادر خواهید بود قوانین مختلفی را راستای دسترسی ربات‌های خزندهٔ موتورهای جستجوگر برای ورود به سایت‌تان وضع کنید. این قوانین عبارت‌اند از:

 

نقشه ی سایت و فایل robot.txt

User-agent :

این دستور برای هدف‌گیری یک ربات خاص به‌کاربرده می‌شود. این دستور را می‌توان به دو شکل در فایل robots.txt به کاربرد.اگر می‌خواهید به تمام ربات‌های خزنده یک دستور را بدهید، فقط کافی است بعد از عبارت User-agent از علامت “*” استفاده کنید. مانند زیر :

* : User-agent

دستور بالا به این معنا است که “دستورات فایل، برای همه ربات‌های جستجوگر یکسان عمل می‌کند”. اما اگر می‌خواهید تنها به یک ربات خاص مانند ربات گوگل GoogleBot دستور خاصی را بدهید، دستور شما باید به شکل زیر نوشته شود:

User-agent: Googlebot :

کد بالا به این معنی است که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی است”.

Disallow

دستور Disallow به ربات‌ها می‌گوید که چه فولدرهایی از سایت شمارا نباید بررسی کنند. در حقیقت این دستور، بیانگر آدرس صفحه‌ای است که می‌خواهید از دید روبات‌ها پنهان بماند .

برای مثال اگر مایل نیستید موتورهای جستجو ، تصاویر سایت شمارا ایندکس کنند ، می‌توانید تمام تصاویر سایت را درون یک پوشه در هاستینگ خود قرار دهید و از دسترس موتورهای جستجو خارج سازید .

فرض کنیم که تمام این تصاویر را به درون فولدر “Photos” منتقل کرده‌اید. برای آنکه به موتورهای جستجو بگویید که این تصاویر را ایندکس نکند، باید دستوری مانند زیر را بنویسید:

* :User-agent
Disallow: /photos

با واردکردن دو خط کد بالا در فایل robots.txt، به هیچ‌یک از ربات‌های جستجوگر اجازه ورود به فولدر تصاویر سایت را نمی‌دهد . در کد دستوری بالا، قسمت “User-agent: *” بیانگر این است که اجرای این دستور برای تمامی ربات‌های جستجو ضروری است .

قسمت “Disallow: /photos” می‌گوید که ربات، اجازه ورود یا ایندکس پوشه تصاویر سایت را ندارد.

Allow

موتور جستجوی گوگل چندین نوع روبات مخصوص به خود دارد که معروف‌ترین آن‌ها بانام Googlebot شناخته می‌شود و وظیفه بررسی و ایندکس صفحات وب را بر عهده دارد .

این ربات نسبت به سایر ربات‌های جستجوگر ، دستورات بیشتری را متوجه می‌شود . علاوه بر دستورات “User-agent” و “Disallow”، ربات گوگل دستور دیگری به نام “Allow” را نیز درک می‌کند .

دستور Allow به شما امکان می‌دهد تا به ربات گوگل بگویید که اجازه مشاهده یک فایل ، در فولدری که Disallowed شده را دارد . برای درک بهتر این دستور، اجازه بدهید که از مثال قبلی استفاده کنیم، بهتر نیست؟

در مثال قبل رشته کدی را قراردادیم که به ربات‌های جستجو، اجازه دسترسی به تصاویر سایت را نمی‌داد. تمام تصاویر سایت را درون یک پوشه به نام Photos قراردادیم و با دستور زیر یک فایل robots.txt ایجاد کردیم:

sallow: /photos

حال تصور کنید درون این پوشهٔ ما که در هاستینگ سایت قرار دارد، تصویری به نام seo.png وجود دارد که می‌خواهیم Googlebot آن را ایندکس کند. با استفاده از دستور Allow می‌توانیم به ربات گوگل بگوییم که این کار را انجام دهد :

* :User-agent
Disallow: /photos
Allow: /photos/seo.png

این دستور به ربات گوگل می‌گوید که اجازه مشاهده و ایندکسِ فایل seo.png را دارد، علی‌رغم اینکه فولدر Photos از دسترس ربات‌ها خارج‌شده است .

نقشه ی سایت و فایل robot.txt

آیا برای سایت‌­های وردپرسی به فایل Robots.txt نیاز است؟

کلیه سایت‌ها برای ایندکس شدن توسط موتورهای جستجوی به فایل robots.txt نیاز دارند . اگر سایت وردپرسی شما دارای فایل robots.txt نباشد، موتورهای جستجو تمام وبسایت شما را پیمایش و فهرست می‌کنند که در این صورت نمی‌توانید به موتورهای جستجو دستور دهید که نباید کدام صفحات و فایل‌ها را پیمایش کنند .

 

این عمل زمانی که به تازگی وبسایت خود را راه‌اندازی کرده‌اید و محتوای زیادی در سایت ندارید تاثیر زیادی نخواهد داشت ، اما پس از رشد و گسترش وبسایت، توصیه می‌کنیم برای کنترل بهتر و نحوه خزیدن موتورهای جستجو و در نهایت سئوی وردپرس، از فایل Robots.txt استفاده کنید .

وجود فایل Robots.txt در سایت‌ها از اهمیت بسیاری برخوردار است ، ربات‌های جستجو برای هر وبسایت سهمیه خزیدن دارند و تعداد مشخصی از صفحات را در یک جلسه پیشمایش می‌کنند .

بنابراین اگر نتوانند کل وبسایت شما را پیمایش کنند ، مجددا به سایت شما برگشته و در یک جلسه دیگر ادامه این فرایند را تکمیل می‌کنند .

این روند می‌تواند سرعت ایندکس شدن وبسایت شما را تا اندازه زیادی کاهش دهد که برای برطرف نمودن این مشکل می‌توانید از پیمایش صفحات مدیریت وردپرس، فایل افزونه‌ها و قالب‌ها توسط ربات‌های جستجو جلوگیری کنید ، این عمل به موتورهای جستجو کمک می‌کند تا صفحات بیشتری را در سایت شما جستجو ، فهرست‌بندی و پیمایش کنند .

یکی دیگر از مزایای استفاده از فایل robots.txt جلوگیری از ایندکس یک پست یا صفحه در وبسایت می‌باشد ، این کار امن‌ترین راه برای پنهان‌سازی مطالب از دید کاربران نیست اما به شما کمک می‌کند تا از نمایش آن‌ها در نتایج جستجو جلوگیری کنید .

بهینه سازی فایل Robot.txt برای بهبود سئو

از روش‌های ساده و آسانی که می‌توانید برای بهبود و بهینه‌سازی سایت کمک بگیرید از طریق بهینه سازی فایل Robot.txt صورت می‌گیرد. با بهینه سازی فایل Robot.txt به راحتی می‌توانید به ربات‌های جستجو دستور دهید که فقط صفحات ضروری را پیمایش کنند و از ایندکس کردن صفحات غیرضروری خودداری کنند، با این کار سرعت پیمایش وبسایت توسط ربات‌های جستجو تا اندازه قابل توجهی افزایش می‌یابد و در نتیجه سایت رتبه بالاتری کسب می‌کند. در ادامه مقاله با ساخت فایل robots.txt بیشتر آشنا خواهید شد.

فایل درون برنامه Robot.txt چیست؟

فایل Robots.txt یک فایل متنی است که مدیران وبسایت از آن برای هدایت ربات‌های موتور جستجو استفاده می‌کنند و با کمک آن می‌توان نحوه خزیدن و ایندکس صفحات وبسایت را فهرست کرد.

فایل robots.txt در پوشه اصلی وبسایت شما ذخیره می‌شود و قالب اصلی آن به شکل زیر است :

1
2
3
4
5
User-agent: [user-agent name]
Disallow: [URL string not to be crawled]
User-agent: [user-agent name]
Allow: [URL string to be crawled]
Sitemap: [URL of your XML Sitemap]
نوشتهٔ پیشین
گوگل سرچ کنسول چیست ؟
نوشتهٔ بعدی
افزونه yoast و نحوه ی کار کردن با آن

پست های مرتبط

نتیجه‌ای پیدا نشد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این فیلد را پر کنید
این فیلد را پر کنید
لطفاً یک نشانی ایمیل معتبر بنویسید.
برای ادامه، شما باید با قوانین موافقت کنید

فهرست