На вход скрипт принимает два файла:
- disallow_pages.txt – записываем в этот файл те страницы, на которые скрипт не будет заходить, к примеру, скопировать ссылки с robots.txt
- update_and_priority.txt – файл, в котором можно указать для страниц сайта priority (от 0.1 до 1.0) и changefreq (always, hourly, daily, weekly, monthly, yearly, never)
На выходе скрипт выдает три файла:
- sitemap.xml (валидный xml)
- sitemap.txt (карту сайту, в виде перечисление всех "обойденных" ссылок ссайта)
- runtime.txt (время, которое работал скрипт).
Тестировался скрипт на 5 сайтах.
Нормально отрабатывает для сайта с 5000 ссылками.
Скрипт, будет полезен для тех сайтов, где нет вообще системы управления или система управления есть, но НЕ поддерживает функцию генерации sitemap.xml / sitemap.txt