محتوای تکراری (Duplicate Content) - دلایل و راه حل رفع آن

موتورهای جستجو مانند گوگل "محتوای تکراری یا duplicate content" را به راحتی تشخیص می دهند. محتوای تکراری به این معنی است که یک محتوای مشابه در چندین سایت (URL) در وب ظاهر می شود و در نتیجه موتورهای جستجو نمی دانند که کدام URL را در نتایج جستجو نشان دهند.

این موضوع می تواند به رتبه بندی یک صفحه وب صدمه بزند و مشکل وقتی بدتر می شود که مردم شروع به لینک زدن به نسخه های مختلف یک محتوای یکسان کنند.

این مقاله به شما کمک می کند تا دلایل مختلف محتوای تکراری را درک کنید و برای هر یک از آنها راه حل پیدا کنید و البته از آن دوری کنید.

در این مطلب با هم بررسی می کنیم که : 

1.محتوای تکراری (duplicate content) چیست؟

2.دلایل بوجود آمدن داپلیکیت کانتنت

3.شناسایی مشکلات Duplicate content

4.راه حل های کاربردی و عملی برای داپلیکیت کانتنت

 

محتوای تکراری (duplicate content) چیست؟

محتوای تکراری محتوایی است که در چندین URL در وب موجود است. از آنجا که در این حالت، بیش از یک URL محتوای یکسانی را نشان می دهد، موتورهای جستجو نمی دانند که کدام URL را در نتایج جستجو بالاتر قرار دهند. بنابراین ممکن است هر دو URL را پایین تر قرار داده و ارجحیت را به سایر صفحات وب بدهند.

در این مقاله، ما بیشتر به دلایل فنی به وجودآمدن duplicate content و راه حل های آنها خواهیم پرداخت.

بیایید این موضوع را با یک مثال توضیح دهیم

محتوای تکراری را می توان همچون قرار گرفتن در چهار راهی تشبیه کرد که علائم جاده به دو جهت متفاوت برای یک مقصد اشاره می کنند: کدام جاده را انتخاب خواهید کرد؟ 

برای بدتر کردن وضعیت، فرض کنید مقصد نهایی نیز کمی متفاوت باشد. به عنوان یک خواننده، شاید این موضوع برای شما اهمیتی نداشته باشد چرا که بالاخره محتوای مورد نظرتان را خواهید یافت، اما یک موتور جستجو باید انتخاب کند که کدام صفحه را در نتایج جستجو نشان دهد، زیرا نمی خواهد مطالب یکسان را دو بار به نمایش بگذارد.

بیایید فرض کنیم که مقاله شما در مورد "کلمه کلیدی x" در 
http://www.example.com/keyword-x/ و http://www.example.com/article-category/keyword-x/ 
به صورت کاملا یکسان ظاهر شود .

این وضعیت خیالی و ساختگی نیست. این اتفاق در بسیاری از سیستم های مدرن مدیریت محتوا (Content Management Systems) اتفاق می افتد.

بعد از این فرض کنیم که مقاله شما توسط چندین وبلاگ نویس برداشته شده و برخی از آنها نیز به URL اول لینک زده باشند، در حالی که برخی دیگر به URL دوم لینک زده اند. این دقیقا زمانی است که مشکل داپلیکیت کانتنت در موتور جستجو ماهیت واقعی خود را نشان می دهد.

و این مساله فرایند سئو شما را مختل می کند. در واقع duplicated content مشکل شماست زیرا هر دو آن لینک ها، به URL های مختلفی ارزش می دهند . اگر همه آنها به یک URL لینک می زدند، شانس شما برای رتبه بندی برای "کلمه کلیدی x" بیشتر می بود.

اگر نمی دانید که مساله محتوای تکراری بر روی کدام نتایج شما در رتبه بندی گوگل تاثیر گذاشته است، ابزارهای کشف محتوای تکراری به شما کمک می کنند تا به این موضوع پی ببرید!

 

دلایل بوجود آمدن duplicate content

ده ها دلیل برای مشکل داپلیت کانتنت وجود دارد. بیشتر آنها فنی هستند. خیلی طبیعی نیست که کسی تصمیم بگیرد محتوای یکسان را در دو مکان مختلف قرار دهد بدون اینکه مشخص کند کدام یک از آن ها اصلی است. مگر اینکه پستی را کپی کرده و آن را به طور تصادفی و یا غیر تصادفی منتشر کرده باشید.

در غیر این صورت، این کار امری غیر طبیعی است.

اگر چه دلایل فنی زیادی وجود دارد، اما این اتفاق بیشتر به این دلیل رخ می دهد که برنامه نویس یا توسعه دهنده مانند مرورگر و یا حتی کاربر فکر نمی کنند، در حالیکه موتور جستجوی گوگل تصمیم دارد مانند کاربر فکر کند و تجربه ای لذت بخش برای کاربران ایجاد کند.

مقاله ای را که قبلاً در http://www.example.com/keyword-x/ و http://www.example.com/article-category/keyword-x/ مثال زدیم را در نظر بگیرید. اگر از برنامه نویس بپرسید، او می گوید که مقاله مورد نظر فقط در یک URL وجود دارد.

برداشت اشتباه در مورد مفهوم یک URL

نه، آن برنامه نویس دیوانه نشده است ، آنها فقط به زبان دیگری صحبت می کنند. CMS احتمالاً چرخ وب سایت را به حرکت در خواهد آورد و در آن پایگاه داده نیز فقط یک مقاله وجود دارد، اما نوع برنامه نویسی سایت به گونه ای است که مقاله مورد نظر موجود در پایگاه داده از طریق چندین URL پیدا و نمایش داده می شود.

دلیل این اتفاق چیست؟ از نظر توسعه دهنده، شناسه منحصر به فرد (unique identifier, ID) یک مقاله، شناسه ای است که هر مقاله در پایگاه داده دارد (نه URL آن). اما برای موتور جستجو، URL شناسه منحصر به فرد برای یک محتوا محسوب می شود.

اگر این موضوع را برای یک برنامه نویس توضیح دهید، آنها مشکل را پیدا می کنند و راهکارهای حل این مساله پیدا خواهد شد.

شما هم بعد از خواندن مقاله ایجاد URL سئو فرندلی، بلافاصله می توانید این مورد را در سایت خود بررسی کنید و راه حلی برای آن ارائه بدهید.

Session ID ها

شما معمولا می خواهید رفتار بازدیدکنندگان سایت خود را دنبال کنید و به آنها اجازه دهید تا عملی را انجام دهند. برای مثال، کالاهایی را که قصد خریدشان را دارند را در سبد خرید ذخیره کنند. برای انجام این کار، باید "Session" به آنها بدهید.

تعریف Session به طور مختصر تاریخچه کاری است که بازدید کننده در سایت شما انجام داده است و می تواند حاوی مواردی مانند اضافه کردن کالای موجود در سبد خریدشان باشد.

برای حفظ آن Session، هنگامی که بازدید کننده از یک صفحه به صفحه دیگر کلیک می کند، شناسه منحصر به فرد آن Session (که Session ID نامیده می شود) باید در جایی ذخیره شود. رایج ترین راه حل انجام این کار با کوکی ها (Cookies) است. با این حال، موتورهای جستجو معمولاً کوکی ها را ذخیره نمی کنند.

در این مرحله، برخی از سیستم ها با استفاده از Session ID ها، آن ها را در URL بازمی گردانند. این به این معنی است که هر لینک داخلی در وب سایت، Session ID مورد نظر را به URL خود اضافه می کند و به دلیل اینکه آن Session ID مخصوص همان Session است ، یک URL جدید ایجاد می شود و بنابراین محتوای تکراری تکثیر می شود.

پارامترهای URL که برای ردیابی و مرتب سازی استفاده می شوند

دلیل دیگر محتوای تکراری استفاده از پارامترهای URL ای است که محتوای صفحه را تغییر نمی دهند. به عنوان مثال، در پیگیری و دنبال کردن لینک ها می بینید که برای یک موتور جستجو http://www.example.com/keyword-x/ و http://www.example.com/keyword-x/?source=rss، URL های یکسانی نیستند.

مورد دوم ممکن است به شما این امکان را بدهد تا ردیابی کنید که مردم از چه منبعی آمده اند، اما همچنین ممکن است که رتبه بندی را برای شما دشوار کند و این یک اثر جانبی ناخواسته بر روی فرایند سئوی سایت شما است.

البته این موضوع فقط برای پارامترهای ردیابی نیست. بلکه برای هر پارامتری است که می توانید به یک URL اضافه کنید در صورتی که محتوای مهم و اصلی را تغییر ندهد. چه این پارامتر برای "تغییر مرتب سازی در مجموعه ای از محصولات" باشد و یا "نمایش سایدبار (sidebar)"، همه آنها باعث محتوای تکراری می شوند.

سایت های دزد محتوا (Scrapers) و هم نشری محتوا (Content Syndication)

بیشتر دلایل Duplicate Content یا به محتوا نویس سایت شما و یا به برنامه نویس سایت تان مرتبط است. با این حال، گاهی اوقات وب سایت های دیگر با اجازه و یا بدون رضایت شما از محتوایتان استفاده می کنند. آنها همیشه به مقاله اصلی شما لینک نمی زنند؛ بنابراین موتور جستجو آن را تشخیص نمی دهد و مجبور است با نسخه دیگری از همان مقاله سروکار داشته باشد.

هرچه سایت شما محبوبیت بیشتری پیدا کند، سایت های دزد محتوا (scrapers) بیشتری به خود جذب خواهد کرد که باعث بدتر شدن مشکل می شود.

ترتیب پارامترها

دلیل متداول دیگر این است که CMS از URL های تمیز و خوب استفاده نمی کند. بلکه از URL هایی مانند /?id=1&cat=2 استفاده می کند که id به مقاله و cat به دسته بندی مورد نظر اشاره می کند. URL /?cat=2&id=1 در اکثر سیستم های وب سایت ها، نتایج مشابهی را رندر می کند در حالی که برای موتور جستجو کاملاً متفاوت است.

صفحه بندی (Pagination) نظرات (comment)

در وردپرس، و همچنین در برخی از سیستم های دیگر ، گزینه ای برای صفحه بندی نظرات شما وجود دارد. این موضوع منجر به تکرار شدن محتوا در سراسر URL مقاله و URL مقاله + /comment-page1/، /comment-page-2/ و غیره می شود.

صفحات مناسب چاپ

اگر سیستم مدیریت محتوای شما صفحات مناسب چاپ ایجاد کند و شما از صفحه های مقاله خود به آن ها لینک بزنید، گوگل معمولاً آنها را پیدا می کند، مگر اینکه آنها را بطور اختصاصی مسدود بکنید.

شما باید از خود بپرسید که کدام نسخه را می خواهید که گوگل نشان دهد؟ موردی که با تبلیغات و محتوای جانبی شما همراه است و یا آن که فقط مقاله شما را نشان می دهد؟

WWW در مقابل non-WWW

این مورد یکی از قدیمی ترین دلیل های این موضوع است، اما گاهی اوقات موتورهای جستجو هنوز آن را اشتباه می گیرند: داپلیکیت کانتنت WWW در مقابل non-WWW

البته این مورد زمانی اتفاق می افتد که هر دو نسخه سایت شما قابل دسترسی باشد. وضعیت متداول دیگری که من نیز آن را دیده ام ، محتوای تکراری HTTP در مقابل HTTPS است ، که در هر دو آن ها محتوای یکسان ارائه می شود.

در صورت یکه اطلاعات کافی درباره Https ندارید مقاله زیر را مشاهده نمایید:

 

HTTPS چیست؟ تمام مواردی که نیاز است بدانید

راه حل مفهومی:  "کنونیکال URL"

همانطور که قبلاً نیز دیده ایم، این موضوع که چندین URL به یک محتوای یکسان ختم شوند، اگر چه یک مشکل است اما قابل حل است.

فردی که در یک نشریه کار می کند به طور معمول می تواند به راحتی به شما بگوید که URL صحیح برای یک مقاله خاص کدام است، اما گاهی اوقات وقتی از سه نفر در یک شرکت سوالی بپرسید، سه پاسخ متفاوت دریافت می کنید.

این قضیه مشکلی است که باید به آن پرداخت، زیرا که در نهایت، فقط یک (URL) می تواند وجود داشته باشد. موتورهای جستجو از آن URL "صحیح" متناظر با محتوا، با عنوان Canonical URL یاد می کنند.

 

شناسایی مشکلات Duplicate content

شاید از این که آیا در سایت خود با محتوای تکراری روبرو هستید یا نه، آگاه نباشید. استفاده از گوگل یکی از ساده ترین راه ها برای ردیابی محتوای تکراری است.

چندین اپراتور جستجو وجود دارد که در مواردی از این دست بسیار مفید هستند. اگر می خواهید تمام URL های سایت خود را که حاوی مقاله ای با کلمه کلیدی X هستند را پیدا کنید ، عبارت جستجوی زیر را در گوگل تایپ می کنید:

site:example.com intitle:"Keyword X"

سپس گوگل همه صفحاتی که در آن ها کلمه کلیدی مورد نظر وجود دارد را در example.com به شما نشان خواهد داد. هرچه قسمت intitle آن خاص تر و مشخص تر باشد، آسان تر از شر داپلیکیت کانتنت خلاص خواهید شد.

برای شناسایی محتوای تکراری در وب نیز می توانید از همین روش استفاده کنید. بیایید فرض کنیم که عنوان کامل مقاله شما "کلمه کلیدی X - چرا عالی است" باشد ، در این صورت شما باید عبارت زیر را جستجو کنید:

intitle:"Keyword X - why it is awesome"

و گوگل همه سایت هایی که با این عنوان مطابقت دارند را به شما می دهد. بعضی اوقات ارزش این را دارد که حتی یک یا دو جمله کامل از مقاله خود را جستجو کنید، زیرا ممکن است بعضی از سایت های دزد محتوا (scrapers) عنوان را تغییر دهند.

در بعضی موارد، وقتی به این صورت جستجو می کنید، ممکن است گوگل در صفحه آخر نتایج چنین اعلانی را نشان دهد:

این علامتی است که نشان می دهد گوگل از قبل در حال "حذف محتوای تکراری (deduping) " از نتایج بوده است. اما این هنوز یک راهکار کامل نیست، بنابراین لازم است روی لینک کلیک کرده و به سایر نتایج نگاه کنید تا ببینید که آیا می توانید برخی از آنها را برطرف کنید یا نه.

 

راه حل های کاربردی و عملی برای داپلیکیت کانتنت

هنگامی که تصمیم گرفتید که کدام URL کنونیکال برای محتوای شما است، باید فرآیند کنونیکالیزیشن را شروع کنید. این به این معناست که ما باید به موتورهای جستجو در مورد نسخه کنونیکال یک صفحه بگوییم و به آنها اجازه دهیم که در کمترین زمان ممکن آن ها را پیدا کنند. به ترتیب اولویت، چهار روش برای حل این مشکل وجود دارد:

  • عدم ایجاد محتوای تکراری
  • ریدایرکت کردن محتوای تکراری به URL کنونیکال
  • افزودن یک عنصر لینک کنونیکال به صفحه تکراری
  • افزودن لینک HTML از صفحه تکراری به صفحه کنونیکال

اجتناب از محتوای تکراری

برخی از دلایل محتوای تکراری که در بالا آمده اند راه حل های بسیار ساده ای دارند:

  • آیا Session ID در URL های شما وجود دارد؟

این موارد اغلب فقط می توانند در تنظیمات سیستم شما غیرفعال شوند.

  • آیا صفحات تکراری مناسب چاپ دارید؟

این موارد کاملاً غیرضروری هستند: شما فقط باید از print style sheet استفاده کنید.

  • آیا از صفحه بندی نظرات در وردپرس استفاده می کنید؟

شما فقط باید این ویژگی را (در بخش settings >> discussion) در 99٪ سایتها غیرفعال کنید.

  • آیا پارامترهای شما ترتیب دیگری دارند؟

به برنامه نویس خود بگویید که یک اسکریپت ایجاد کند تا همیشه پارامترها را در یک ترتیب یکسان قرار دهد.

  • آیا مشکلات لینک های دنبال کننده وجود دارد؟

در بیشتر موارد، می توانید به جای ردیابی کمپین مبتنی بر پارامتر ، از ردیابی کمپین مبتنی بر هشتگ استفاده کنید.

  • آیا مشکلات WWW درمقابل non-WWW دارید؟

یکی را انتخاب کنید و با ریدایرکت کردن یکی به دیگری، با آن همراه شوید. همچنین می توانید درGoogle Webmaster Tools اولویت تعیین کنید.

اگر مشکل شما با روش های بالا برطرف نشد ،ارزش دارد تا بیشتر تلاش کنید و هدفتان این باشد که از ظاهر شدن محتوای تکراری به طور کامل جلوگیری شود.

ریدارکت 301 محتوای تکراری

در برخی موارد ، جلوگیری از ایجاد URL های اشتباه برای محتوا، توسط سیستم مورد استفاده شما غیرممکن است. پس الان زمان استفاده از ترفند ریدایرکت است.

اما برای به کاربردن این راهکار باید با برنامه نویس وب سایتتان مشورت کنید و از ریدایرکت 301 به درستی استفاده کنید. 

استفاده از لینک ها

بعضی اوقات شما نمی خواهید و یا نمی توانید از نسخه تکراری مقاله خلاص شوید، حتی اگر بدانید که این URL اشتباه است. برای حل این مسئله خاص، موتورهای جستجو، تگ کنونیکال را معرفی کرده اند. این تگ در بخشسایت شما قرار گرفته است و به صورت زیر است:

 

 

در قسمت href آن، URL کنونیکال صحیحی را برای مقاله خود قرار می دهید. هنگامی که یک موتور جستجو که از کنونیکال پشتیبانی می کند، این عنصر لینک را پیدا کند، یک ریدایرکت 301 انجام می دهد و بیشتر لینک های جمع شده توسط آن صفحه را به صفحه کنونیکال شما منتقل می کند.

اگرچه این روند کمی کندتر از ریدایرکت 301 است ، اما اگر فقط قادر به ریدایرکت 301 هستید، ترجیحا همین کار را بکنید (همانطور که توسط جان مولر گوگل گفته شد).

لینک برگشت زدن به محتوای اصلی

اگر نمی توانید هر کدام از موارد بالا را انجام دهید، احتمالاً به این دلیل است که بخشسایتی را که محتوای شما در آن نمایش داده می شود را نمی توانید کنترل کنید، پس افزودن لینک برگشت به مقاله اصلی در بالا و یا پایین مقاله همیشه ایده خوبی است. ممکن است بخواهید این کار را در (RSS feed) خود با اضافه کردن لینک برگشتی به مقاله موجود در آن انجام دهید.

برخی از سایت های دزد محتوا (scrapers) این لینک را فیلتر می کنند در حالی که برخی دیگر ممکن است کاری با آن نداشته باشند. اگر گوگل با چندین لینک روبرو شود که به مقاله اصلی شما اشاره می کنند، به زودی پی خواهد برد که این همان نسخه کنونیکال است.

 

نتیجه گیری: محتوای تکراری قابل اصلاح است و باید اصلاح شود

محتوای تکراری در همه جا اتفاق می افتد. من هنوز با سایتی با بیش از 1000 صفحه مواجه نشده ام که حداقل دارای یک مشکل کوچک محتوای تکراری نباشد. این چیزی است که شما باید دائماً مراقب آن باشید ، اما این مسئله قابل حل است و پاداش های آن می تواند فراوان باشد. فقط با خلاص شدن از شر محتوا تکراری از سایت خود، محتوای با کیفیت شما می تواند جایگاه بالاتری در رتبه بندی گوگل کسب کند.

 

 

مقالات مرتبط

سئوی خارجی (off-page Seo) چیست و چه اهمیتی در سئو دارد؟

سئو محتوا - نکات ضروری برای رتبه گرفتن در صفحه اول

نظرات کاربران

نظر تازه ای ثبت کنید