مدیریت بودجه خزش (Crawl Budget) در سایتهای بزرگ یا فروشگاهی (E-commerce) یکی از حیاتیترین بخشهای سئو تکنیکال است. وقتی تعداد صفحات بالا میرود، گوگل زمان و منابع محدودی را برای خزش سایت شما اختصاص میدهد. اگر این زمان صرف صفحات بیارزش (Low-value pages) شود، صفحات اصلی شما از دید گوگل پنهان میمانند.
برای حل این مشکل، پیشنهاد میکنم اقدامات زیر را به صورت زنجیرهای و اصولی انجام دهید:
۱. تفاوت حیاتی بین robots.txt و noindex را درک کنید
- اشتباه رایج: بسیاری از وبمسترها صفحهای را در robots.txt مسدود (Disallow) میکنند و همزمان به آن تگ noindex میزنند. وقتی صفحهای در robots.txt مسدود شود، گوگلبات اصلاً نمیتواند وارد آن شود تا تگ noindex را بخواند! در نتیجه ممکن است آن صفحه همچنان در نتایج جستجو (هرچند بدون توضیحات) باقی بماند.
راهکار:
- اگر میخواهید صفحهای اصلاً خزش نشود (مثل صفحات فیلترهای ترکیبی پیچیده یا سبد خرید)، فرمت URL آنها را در robots.txt مسدود کنید.
- اگر میخواهید صفحه خزش شود اما در نتایج گوگل نیاید (مثل صفحات تشکر از خرید یا پنل کاربری)، از تگ <meta name="robots" content="noindex, follow"> استفاده کنید و دسترسی آن را در robots.txt نبندید تا گوگل بتواند دستور noindex را بخواند.
۲. مدیریت صفحات فیلتر (Faceted Navigation)
فیلترهای محصولات (مثلاً رنگ، سایز، قیمت و…) میتوانند میلیونها ترکیب URL ایجاد کنند که قاتل اصلی بودجه خزش هستند.
- بهترین روش: فیلترهایی که ارزش سرچ ندارند (مثلاً فیلتر محدوده قیمت) را به صورت کلاینتساید (با استفاده از AJAX/JS بدون تغییر URL یا با استفاده از Hash # در URL) پیادهسازی کنید تا گوگل اصلاً متوجه تغییر URL نشود و خزش بیهوده انجام ندهد.
۳. استفاده هوشمندانه از Canonical
برای صفحات Pagination (صفحهبندیها) یا صفحاتی که شباهت زیادی به هم دارند، حتماً از تگ canonical به سمت صفحه اصلی یا نسخه مرجع استفاده کنید. هرچند Canonical بودجه خزش را به طور کامل ذخیره نمیکند (چون گوگل همچنان ممکن است آدرسهای کانونیکال شده را برای بررسی تغییرات خزش کند)، اما از ایجاد محتوای تکراری (Duplicate Content) جلوگیری میکند.
۴. بهینهسازی لینکسازی داخلی (Internal Linking)
گوگلبات مسیرهای لینکسازی داخلی شما را دنبال میکند.
- صفحات مهم و پرفروش خود را در منوی اصلی، هدر، فوتر و یا به عنوان محصولات پیشنهادی لینک کنید.
- از سالم بودن لینکها مطمئن شوید. وجود لینکهای شکسته (خطای ۴۰۴) یا زنجیرههای ریدایرکت (Redirect Chains - مثلاً ریدایرکت ۳۰۱ پشت سر هم) به شدت بودجه خزش را هدر میدهد.
۵. نقشه سایت (Sitemap.xml) را پاکیزه نگه دارید
مطمئن شوید که نقشه سایت شما فقط و فقط شامل صفحات با کد وضعیت ۲۰۰ (OK) و قابل ایندکس (Indexable) است. صفحات ریدایرکت شده، ۴۰۴، و صفحات دارای تگ noindex یا کانونیکال غیراصلی را کاملاً از نقشه سایت حذف کنید.
پیشنهاد میکنم ابتدا گزارش Crawl Stats را در گوگل سرچ کنسول بررسی کنید تا ببینید گوگل بیشتر وقت خود را در کدام بخش از سایت شما میگذراند و سپس بر اساس آن تصمیم بگیرید.