فرصت باقی مانده تا رویداد ۱۰ مرداد

روز

ساعت

دقیقه

ثانیه

Robots.txt و سئو: آموزش جامع

12 اردیبهشت 1401

 robots.txt چیست

robots.txt چیست فایلی است که به کراولر موتور جستجو می گوید صفحات یا بخش های خاصی از یک سایت را کراول نکنند. بیشتر موتورهای جستجوی بزرگ (از جمله گوگل، بینگ و یاهو) دستورات Robots.txt را تشخیص داده و طبق آن عمل می کنند.

 

چرا Robots.txt مهم است

اکثر سایت ها به فایل robots.txt نیازی ندارند.

به این دلیل که گوگل معمولاً می تواند تمام صفحات مهم سایت شما را پیدا و ایندکس کند.

و آنها به طور خودکار صفحاتی را که مهم نیستند یا نسخه های تکراری صفحات را ایندکس نخواهند کرد.

با این وجود، 3 دلیل مهم وجود دارد که باید از robots.txt استفاده کنید.

بلاک کردن صفحات غیر عمومی: بعضی اوقات صفحاتی در سایت خود دارید که نمی خواهید ایندکس شوند. به عنوان مثال، صفحه لاگین سایت باید در سایت شما وجود داشته باشد ولی نیاز نیست در ایندکس گوگل قرار بگیرد. این موردی است که شما می توانید از robots.txt برای بلاک کردن این صفحات برای کراولر و ربات های موتور جستجو استفاده کنید.

crawl budget را کنترل کنید: اگر برای ایندکس صفحات خود مشکل دارید و گاهی در سرچ کنسول خود متوجه می شوید که برخی صفحات ایندکس نشده اند پس این نشان دهنده مشکل بودجه خزیدن crawl budget است. با بلاک کردن صفحات غیر مهم برای ربات گوگل در robots.txt، می تواند crawl budget را در صفحاتی که واقعاً مهم هستند، هزینه کنید.

جلوگیری از ایندکس منابع: استفاده از تگ های متا می تواند به اندازه  Robots.txt برای جلوگیری از ایندکس شدن صفحات مفید باشد. با این حال، تگ های متا برای منابع چندرسانه ای مانند PDF و تصاویر به خوبی کار نمی کنند. در اینجا robots.txt می تواند جایگزین آن شود.

حرف آخر؟ Robots.txt به کراولرهای موتور جستجو می گوید که صفحات خاصی از سایت شما را کراول نکنند.

در سرچ کنسول می توانید ببینید که چه تعداد از صفحات شما ایندکس شده است.

robots.txt چیست - صفحات ایندکس شده

اگر این شماره با تعداد صفحاتی که می خواهید ایندکس شوند یکی بود، نیازی نیست به ROBOTS.TX  نخواهید داشت.

اما اگر این تعداد بیش از حد انتظار شما باشد (و متوجه صفحاتی ایندکس شده ای شوید که نباید ایندکس شوند)، وقت آن است که یک فایل robots.txt برای سایت خود ایجاد کنید.

 

نحوه ساخت robots.txt برای سایت

یک پرونده Robots.txt ایجاد کنید

اولین قدم شما ایجاد فایل robots.txt است.

برای ایجاد آن می توانید از notepad ویندوز استفاده کنید.

و مهم نیست که در نهایت فایل robots.txt خود را چگونه می سازید، قالب دقیقاً یکسان است:

User-agent: X

Disallow: Y

User-agent رباتی است که با آن صحبت می کنید.

و هر چیزی که پس از "Disallow" می آید صفحات یا بخشهایی است که می خواهید بلاک کنید.

برای مثال:

User-agent: googlebot

Disallow: /images

این قانون به Googlebot می گوید که پوشه تصویر سایت شما را ایندکس نکند.

همچنین می توانید از ستاره (*) برای بلاک کردن همه ربات ها استفاده می شود.

برای مثال:

User-agent: *

Disallow: /images

"*" به همه کراولرها می گوید که پوشه تصاویر شما را کراول نکنند.

این فقط یکی از روش های استفاده از فایل robots.txt است. این راهنمای مفید از Google دارای اطلاعات بیشتری در مورد قوانین مختلفی است که می توانید برای جلوگیری از رباتها در صفحات مختلف سایت خود استفاده کنید.

robots.txt

پیدا کردن فایل Robots.txt را آسان کنید

زمانی که فایل robots.txt خود را ساختید، نوبت به آپلود کردن آن می رسد.

شما می توانید فایل robots.txt خود را در هر main directory سایت خود قرار دهید.

اما ما توصیه می کنیم آن را به این صورت قرار دهید:

https://example.com/robots.txt

(توجه داشته باشید که فایل robots.txt به حروف کوچک و بزرگ حساس است. بنابراین مطمئن شوید که از "r" کوچک در نام پرونده استفاده کنید)

تست robots.txt

واقعاً مهم است که فایل robots.txt شما به درستی تنظیم شود. یک اشتباه ممکن است کل سایت شما را از ایندکسی خارج کند.

خوشبختانه نیازی نیست به صورت دستی همه خودتان به بررسی فایل ROBOTS.TXT بپردازید. Robots Testing Tool ربات عالی برای این کار است:

تست robots.txt

این هرگونه error و warning را نشان می دهد:

نمایش ارور و warning

همانطور که می بینید، ما کراولر ها را از کراول کردن صفحه WP admin منع می کنیم.

Robots.txt یا متا تگ ها

چرا وقتی می توانید از برچسب متا "noindex" برای بلاک کردن ربات ها استفاده کنید، از robots.txt استفاده می کنید؟

همانطور که قبلاً اشاره کردیم، برچسب noindex روی منابع چندرسانه ای مانند فیلم ها و PDF خیلی خوب عمل نمی کند.

همچنین، اگر هزاران صفحه دارید که می خواهید آنها را بلاک کنید، مسدود کردن کل بخش آن سایت با robots.txt راحت تر از افزودن دستی برچسب noindex به هر صفحه است.

همچنین مواردی وجود دارد که شما نمی خواهید هیچ crawl budget را برای فرود گوگل در صفحات دارای برچسب noindex هدر دهید.

علاوه بر این موارد من توصیه می کنم به جای robots.txt از تگ متا استفاده کنید. اجرای آنها آسان تر است. و احتمال وقوع یک فاجعه کمتر است (مانند مسدود کردن کل سایت خود).

 

پست های مشابه