माइग्रेट करने से पहले अपनी CARS & BS को व्यवस्थित करें।

यह सरल स्मरणीय संकेत संपूर्ण URL सूची बनाने के लिए छह आवश्यक डेटा स्रोतों को कवर करता है:

  • Crawl (क्रॉल)
  • Analytics (एनालिटिक्स)
  • Redirects (existing) (रीडायरेक्ट - मौजूदा)
  • Sitemap (साइटमैप)
  • Backlinks (बैकलिंक)
  • Search Console (सर्च कंसोल)

सभी छह से एकत्र करें, और आप किसी भी महत्वपूर्ण URL को नहीं चूकेंगे।

URL एकत्रण कार्य उद्देश्य
HTML URL के लिए डोमेन क्रॉल करें सभी लाइव पेज खोजें
स्टेटस कोड द्वारा वर्गीकृत करें रीडायरेक्ट आवश्यकताओं की पहचान करें
बैकलिंक वाले URL एकत्र करें SEO इक्विटी संरक्षित करें
XML साइटमैप क्रॉल करें घोषित महत्वपूर्ण पेज कैप्चर करें
Search Console डेटा एक्सपोर्ट करें इंडेक्स किए गए URL खोजें
एनालिटिक्स URL एकत्र करें ट्रैफिक उत्पन्न करने वाले पेज पहचानें
मौजूदा रीडायरेक्ट टेबल ऑडिट करें रीडायरेक्ट चेन रोकें
सभी डेटासेट एकीकृत करें व्यापक रीडायरेक्ट सूची बनाएं

व्यापक URL सूची संकलित करने के लिए मुझे कौन से डेटासेट का उपयोग करना चाहिए?

सर्वोत्तम अभ्यास

एक सफल साइट माइग्रेशन के लिए कई स्रोतों से URL एकत्र करना आवश्यक है ताकि कोई महत्वपूर्ण पेज छूटे नहीं। किसी एक स्रोत पर निर्भर रहने से आपके रीडायरेक्ट कवरेज में खामियां रह जाएंगी।

आवश्यक डेटा स्रोत

स्रोत यह क्या कैप्चर करता है
डोमेन क्रॉल सभी खोजने योग्य HTML URL
XML साइटमैप वे URL जिन्हें आपने महत्वपूर्ण घोषित किया है
Google Search Console वे URL जिनके बारे में Google जानता है
एनालिटिक्स वास्तविक ट्रैफिक वाले URL
बैकलिंक टूल बाहरी लिंक वाले URL
मौजूदा रीडायरेक्ट टेबल वर्तमान रीडायरेक्ट मैपिंग

मल्टी-सोर्स दृष्टिकोण

प्रत्येक स्रोत ऐसे URL कैप्चर करता है जो अन्य चूक सकते हैं:

  • क्रॉलर आंतरिक रूप से लिंक न किए गए अनाथ पेज चूक जाते हैं
  • साइटमैप पुराने या अपूर्ण हो सकते हैं
  • Search Console केवल इंडेक्स किए गए URL दिखाता है
  • एनालिटिक्स शून्य ट्रैफिक वाले पेज चूक जाता है
  • बैकलिंक टूल बाहरी रूप से लिंक किए गए पेजों पर ध्यान केंद्रित करते हैं
सभी उपलब्ध स्रोतों से एकत्र करें, फिर डीडुप्लिकेट करें। अनावश्यक डेटा होना उस उच्च-मूल्य URL को चूकने से बेहतर है जो माइग्रेशन के बाद ट्रैफिक या SEO इक्विटी खो देता है।

HTML URL एकत्र करने के लिए मैं डोमेन कैसे क्रॉल करूं?

महत्वपूर्ण पहला कदम

Screaming Frog, Sitebulb, या समान वेब क्रॉलर जैसे टूल का उपयोग करके अपने संपूर्ण डोमेन को क्रॉल करके शुरू करें। यह आपकी साइट संरचना में लिंक किए गए सभी HTML पेजों को खोजता है।

क्रॉल कॉन्फ़िगरेशन

अनुशंसित सेटिंग्स:

  • क्रॉल डेप्थ: असीमित (या सभी पेजों तक पहुंचने के लिए पर्याप्त ऊंचा)
  • robots.txt का सम्मान करें: माइग्रेशन उद्देश्यों के लिए अक्षम करें (आपको सभी URL चाहिए)
  • आंतरिक लिंक फॉलो करें: सक्षम
  • स्टार्ट फोल्डर के बाहर क्रॉल करें: अक्षम (अपने डोमेन पर रहें)
  • HTML स्टोर करें: वैकल्पिक लेकिन कंटेंट तुलना के लिए उपयोगी

क्या एक्सट्रैक्ट करें

अपने क्रॉल से निम्नलिखित एक्सपोर्ट करें:

URL Address
Status Code
Indexability
Canonical URL
Meta Robots
Title

बड़ी साइटों को संभालने के टिप्स

100,000+ URL वाली साइटों के लिए:

  1. सबडायरेक्टरी द्वारा खंडित करें: /blog/, /products/, /pages/ को अलग-अलग क्रॉल करें
  2. लिस्ट मोड का उपयोग करें: खोजने के बजाय सीधे ज्ञात URL फीड करें
  3. मेमोरी आवंटन बढ़ाएं: Screaming Frog को 8GB+ RAM की आवश्यकता हो सकती है
  4. रात भर चलाएं: बड़े क्रॉल में घंटों लग सकते हैं
⚠️ लाइव साइट को क्रॉल करें
माइग्रेशन शुरू होने से पहले हमेशा अपनी वर्तमान प्रोडक्शन साइट को क्रॉल करें। स्टेजिंग या डेवलपमेंट एनवायरनमेंट को क्रॉल करने से वे URL चूक जाएंगे जो केवल प्रोडक्शन में मौजूद हैं।
अपना क्रॉल कम से कम दो बार चलाएं: एक बार माइग्रेशन योजना की शुरुआत में और एक बार लॉन्च से ठीक पहले। विकास के दौरान URL बदलते हैं, और आपको सबसे वर्तमान डेटा की आवश्यकता होती है।

मुझे स्टेटस कोड द्वारा URL को कैसे वर्गीकृत करना चाहिए?

आवश्यक संगठन

क्रॉल करने के बाद, सभी खोजे गए URL को उनके HTTP स्टेटस कोड द्वारा वर्गीकृत करें। प्रत्येक श्रेणी को आपकी रीडायरेक्ट रणनीति में अलग हैंडलिंग की आवश्यकता होती है।

स्टेटस कोड श्रेणियां

200 OK URL: आपकी प्राथमिक रीडायरेक्ट स्रोत सूची

उपश्रेणी विवरण कार्रवाई
इंडेक्स योग्य सर्च परिणामों में दिखाई दे सकते हैं उच्च प्राथमिकता रीडायरेक्ट
गैर-इंडेक्स योग्य इंडेक्सिंग से ब्लॉक रीडायरेक्ट आवश्यकता का मूल्यांकन करें
कैनोनिकल किसी अन्य URL की ओर इशारा करता है कैनोनिकल टार्गेट पर रीडायरेक्ट करें
NoIndex Meta noindex टैग मौजूद निम्न प्राथमिकता रीडायरेक्ट
UTM पैरामीटर मार्केटिंग ट्रैकिंग URL आमतौर पर रीडायरेक्ट से बाहर रखें
फ़िल्टर पैरामीटर फेसेटेड नेविगेशन URL आमतौर पर रीडायरेक्ट से बाहर रखें

301/302 रीडायरेक्ट URL: पहले से रीडायरेक्ट हो रहे हैं

  • मौजूदा रीडायरेक्ट गंतव्यों को दस्तावेज़ीकृत करें
  • सुनिश्चित करें कि नए रीडायरेक्ट अंतिम गंतव्यों की ओर इशारा करते हैं
  • रीडायरेक्ट चेन बनाने से बचें

404 Not Found URL: टूटे हुए लेकिन संभावित रूप से महत्वपूर्ण

  • इन URL की ओर इशारा करने वाले बैकलिंक की जांच करें
  • इंडेक्स किए गए 404 के लिए Search Console की समीक्षा करें
  • यदि उनका SEO मूल्य है तो रीडायरेक्ट की आवश्यकता हो सकती है
प्रत्येक स्टेटस कोड श्रेणी के लिए अलग स्प्रेडशीट टैब या फ़ाइलें बनाएं। इससे प्रत्येक समूह पर अलग-अलग रीडायरेक्ट रणनीतियां लागू करना आसान हो जाता है।

क्या मुझे 200 के अलावा अन्य स्टेटस कोड वाले URL शामिल करने चाहिए?

हाँ: पूर्ण कवरेज के लिए महत्वपूर्ण

कई माइग्रेशन प्रोजेक्ट केवल 200 स्टेटस पेजों पर ध्यान केंद्रित करते हैं, लेकिन 301/302 और 404 URL समान रूप से महत्वपूर्ण हैं SEO इक्विटी और उपयोगकर्ता अनुभव बनाए रखने के लिए।

301/302 URL क्यों महत्वपूर्ण हैं

मौजूदा रीडायरेक्ट ऐसे URL का प्रतिनिधित्व करते हैं जिनका कभी मूल्य था:

  • बाहरी साइटें अभी भी पुराने URL से लिंक कर सकती हैं
  • सर्च इंजन के पास पुराने URL इंडेक्स हो सकते हैं
  • उपयोगकर्ताओं ने पुराने URL बुकमार्क किए हो सकते हैं

यदि आप मौजूदा रीडायरेक्ट को अनदेखा करते हैं:

पुराना URL → वर्तमान रीडायरेक्ट → नई साइट (टूटा हुआ)

उचित हैंडलिंग के साथ:

पुराना URL → नई साइट (सीधे)

404 URL क्यों महत्वपूर्ण हैं

404 स्टेटस का मतलब यह नहीं है कि URL बेकार है:

404 परिदृश्य रीडायरेक्ट की आवश्यकता
बाहरी साइटों से बैकलिंक हैं हाँ: लिंक इक्विटी संरक्षित करें
Search Console में दिखाई देता है हाँ: Google इसके बारे में जानता है
एनालिटिक्स में ट्रैफिक दिखाता है हाँ: उपयोगकर्ता इसे खोज रहे हैं
हाल ही में हटाया गया कंटेंट शायद: प्रासंगिकता का मूल्यांकन करें
कभी ट्रैफिक या लिंक नहीं था नहीं: अनदेखा करना सुरक्षित

404 डेटा एकत्र करना

404 को इससे एक्सपोर्ट करें:

  • Screaming Frog क्रॉल परिणाम
  • Google Search Console कवरेज रिपोर्ट
  • सर्वर एक्सेस लॉग
  • एनालिटिक्स (शून्य पेजव्यू लेकिन सेशन वाले पेज)
⚠️ सब कुछ रीडायरेक्ट न करें
हर 404 को रीडायरेक्ट की आवश्यकता नहीं है। उन 404 पर ध्यान केंद्रित करें जिनमें बैकलिंक, सर्च इंप्रेशन हैं, या जो ऐसे कंटेंट का प्रतिनिधित्व करते हैं जो स्थानांतरित हो गया है न कि जानबूझकर हटाया गया।