Приведіть свої CARS & BS у порядок перед міграцією. 😂

Ця проста мнемоніка охоплює шість основних джерел даних для створення повного списку URL:

  • Crawl (Сканування)
  • Analytics (Аналітика)
  • Redirects (Редиректи) (існуючі)
  • Sitemap (Карта сайту)
  • Backlinks (Зворотні посилання)
  • Search Console (Консоль пошуку)

Зберіть з усіх шести джерел, і ви не пропустите жодної важливої URL-адреси.

Завдання зі збору URL Мета
Сканування домену для HTML URL Виявлення всіх активних сторінок
Категоризація за кодом статусу Визначення потреб у редиректах
Збір URL із зворотними посиланнями Збереження SEO-капіталу
Сканування XML-карти сайту Захоплення заявлених важливих сторінок
Експорт даних Search Console Пошук проіндексованих URL
Збір URL з аналітики Визначення сторінок, що генерують трафік
Аудит існуючих таблиць редиректів Запобігання ланцюжкам редиректів
Об’єднання всіх наборів даних Створення вичерпного списку редиректів

Які набори даних я повинен використовувати для складання вичерпних списків URL?

Найкраща практика

Успішна міграція сайту вимагає збору URL з декількох джерел, щоб не пропустити жодної важливої сторінки. Покладання на одне джерело призведе до прогалин у покритті редиректами.

Основні джерела даних

Джерело Що воно захоплює
Сканування домену Всі доступні для виявлення HTML URL
XML-карта сайту URL, які ви заявили як важливі
Google Search Console URL, про які знає Google
Аналітика URL з фактичним трафіком
Інструменти зворотних посилань URL з зовнішніми посиланнями
Існуючі таблиці редиректів Поточні зіставлення редиректів

Підхід з декількома джерелами

Кожне джерело захоплює URL, які інші можуть пропустити:

  • Сканери пропускають сторінки-сироти, які не пов’язані внутрішньо
  • Карти сайту можуть бути застарілими або неповними
  • Search Console показує лише проіндексовані URL
  • Аналітика пропускає сторінки з нульовим трафіком
  • Інструменти зворотних посилань фокусуються на сторінках з зовнішніми посиланнями
Збирайте з усіх доступних джерел, а потім видаляйте дублікати. Набагато краще мати надлишкові дані, ніж пропустити високоцінну URL-адресу, яка втратить трафік або SEO-капітал після міграції.

Як мені просканувати домен для збору HTML URL?

Критичний перший крок

Почніть зі сканування всього вашого домену за допомогою такого інструменту, як Screaming Frog, Sitebulb або подібних веб-сканерів. Це виявляє всі HTML-сторінки, які пов’язані всередині вашої структури сайту.

Конфігурація сканування

Рекомендовані налаштування:

  • Глибина сканування: Необмежена (або достатньо висока, щоб охопити всі сторінки)
  • Поважати robots.txt: Вимкнено для цілей міграції (вам потрібні ВСІ URL)
  • Слідувати внутрішнім посиланням: Увімкнено
  • Сканувати за межами початкової папки: Вимкнено (залишайтеся на своєму домені)
  • Зберігати HTML: Опціонально, але корисно для порівняння контенту

Що витягувати

Експортуйте наступне зі свого сканування:

URL Address
Status Code
Indexability
Canonical URL
Meta Robots
Title

Поради для обробки великих сайтів

Для сайтів з понад 100 000 URL:

  1. Сегментація за підкаталогами: Скануйте /blog/, /products/, /pages/ окремо
  2. Використовуйте режим списку: Надавайте відомі URL безпосередньо замість виявлення
  3. Збільште виділення пам’яті: Screaming Frog може потребувати 8 ГБ+ оперативної пам’яті
  4. Запускайте на ніч: Великі сканування можуть тривати годинами
⚠️ Скануйте живий сайт
Завжди скануйте свій поточний продакшн-сайт до початку міграції. Сканування тестового або розробницького середовища пропустить URL, які існують лише в продакшні.
Проведіть сканування принаймні двічі: один раз на початку планування міграції та один раз безпосередньо перед запуском. URL змінюються під час розробки, і вам потрібні найактуальніші дані.

Як мені категоризувати URL за кодом статусу?

Суттєва організація

Після сканування категоризуйте всі виявлені URL за їх HTTP-кодом статусу. Кожна категорія вимагає різного підходу у вашій стратегії редиректів.

Категорії кодів статусу

200 OK URL: Ваш основний список джерел редиректів

Підкатегорія Опис Дія
Індексовані Можуть з’явитися в результатах пошуку Високопріоритетні редиректи
Неіндексовані Заблоковані від індексації Оцініть потребу в редиректі
Канонізовані Вказують на іншу URL Переспрямувати на канонічну ціль
NoIndex Присутній тег meta noindex Низькопріоритетні редиректи
UTM-параметри URL відстеження маркетингу Зазвичай виключаються з редиректів
Параметри фільтрів URL фасетної навігації Зазвичай виключаються з редиректів

301/302 Redirect URL: Вже перенаправляють

  • Документуйте існуючі напрямки редиректів
  • Переконайтеся, що нові редиректи вказують на кінцеві пункти призначення
  • Уникайте створення ланцюжків редиректів

404 Not Found URL: Зламані, але потенційно важливі

  • Перевірте зворотні посилання, що вказують на ці URL
  • Перегляньте Search Console на предмет проіндексованих 404
  • Можуть потребувати редиректів, якщо мають SEO-цінність
Створіть окремі вкладки електронної таблиці або файли для кожної категорії кодів статусу. Це полегшує застосування різних стратегій редиректів до кожної групи.

Чи повинен я включати URL з кодами статусу, відмінними від 200?

Так: критично для повного покриття

Багато міграційних проєктів фокусуються лише на сторінках зі статусом 200, але URL з 301/302 та 404 однаково важливі для збереження SEO-капіталу та користувацького досвіду.

Чому важливі 301/302 URL

Існуючі редиректи представляють URL, які колись мали цінність:

  • Зовнішні сайти можуть все ще посилатися на старі URL
  • Пошукові системи можуть мати проіндексовані старі URL
  • Користувачі могли додати старі URL до закладок

Якщо ви ігноруєте існуючі редиректи:

Старий URL → Поточний редирект → Новий сайт (зламаний)

При правильній обробці:

Старий URL → Новий сайт (прямий)

Чому важливі 404 URL

Статус 404 не означає, що URL безцінна:

Сценарій 404 Потреба в редиректі
Має зворотні посилання з зовнішніх сайтів Так: зберегти капітал посилань
З’являється в Search Console Так: Google знає про це
Показує трафік в аналітиці Так: користувачі шукають це
Нещодавно видалений контент Можливо: оцініть релевантність
Ніколи не мав трафіку або посилань Ні: безпечно ігнорувати

Збір даних 404

Експортуйте 404 з:

  • Результатів сканування Screaming Frog
  • Звіту про покриття Google Search Console
  • Логів доступу до сервера
  • Аналітики (сторінки з нульовими переглядами, але сесіями)
⚠️ Не перенаправляйте все
Не кожна 404 потребує редиректу. Зосередьтеся на 404, які мають зворотні посилання, пошукові враження або представляють контент, який перемістився, а не контент, який був навмисно видалений.