Инструмент для загрузки и локального сохранения документации с сайта ИТС.
- Парсер документации 1С ИТС
- Автоматическая авторизация на сайте 1С ИТС
- Извлечение структуры документации с учетом иерархии разделов
- Сохранение HTML-страниц с сохранением форматирования
- Загрузка и сохранение изображений
- Создание локального оглавления со ссылками на сохраненные страницы
- Поддержка ограничения количества загружаемых страниц
- Возможность возобновления загрузки с заданного раздела
- Python 3.6 или выше
- Google Chrome или Chromium
- ChromeDriver, соответствующий версии вашего браузера
pip install -r requirements.txt
Существует два способа указания учетных данных для авторизации:
Передайте логин и пароль напрямую через аргументы --username
и --password
.
Скопируйте файл-шаблон .env.example
в .env
командой:
copy .env.example .env
Затем откройте файл .env
в любом текстовом редакторе и заполните свои учетные данные:
USERNAME=ваш_логин
PASSWORD=ваш_пароль
python main.py --url https://its.1c.ru/db/edtdoc --login https://login.1c.ru
python main.py --url https://its.1c.ru/db/edtdoc --login https://login.1c.ru/login --username 56572-45 --password 5c5ad902 --limit 50 --headless --verbose
Параметр | Обязательный | Описание |
---|---|---|
--url |
Да | URL-адрес документации для загрузки |
--login |
Да | URL-адрес страницы входа |
--username |
Нет | Логин пользователя (если не указан, берется из .env) |
--password |
Нет | Пароль пользователя (если не указан, берется из .env) |
--limit |
Нет | Максимальное количество страниц для загрузки |
--headless |
Нет | Запуск браузера в фоновом режиме без отображения окна |
--verbose |
Нет | Включить подробный вывод отладочной информации в консоль |
После завершения работы программы в директории out
будут созданы:
index.html
- оглавление документации со ссылками на загруженные страницы- Папки
page_XXXX
для каждой загруженной страницыpage.html
- содержимое страницы с корректными ссылками на изображенияmetadata.txt
- информация о странице (заголовок, уровень, URL)images/
- папка с изображениями для данной страницы
-
Оптимизация скорости: При указании параметра
--limit
скрипт оптимизирует процесс разворачивания узлов дерева, что значительно ускоряет работу программы. -
Headless режим: По умолчанию браузер запускается в видимом режиме. Чтобы запустить в фоновом режиме без графического интерфейса, используйте параметр
--headless
. -
Возобновление загрузки: Для продолжения загрузки после ошибки или прерывания, вы можете указать конкретный URL страницы, с которой нужно начать:
python main.py --url https://its.1c.ru/db/edtdoc/content/123 --login https://login.1c.ru
-
Использование локальной копии: Для просмотра загруженной документации откройте файл
out/index.html
в любом современном браузере. В оглавлении доступны фильтры по уровням иерархии и инструменты навигации.
-
Ошибки авторизации: Убедитесь, что указаны правильные учетные данные. Проверьте URL страницы входа (
--login
). -
Таймауты при загрузке: Для больших документаций может потребоваться больше времени. Используйте параметр
--limit
для ограничения количества страниц. -
Проблемы с отображением кириллицы: Все файлы сохраняются в UTF-8, проверьте, что ваш браузер правильно определяет кодировку.
-
Несоответствие уровней вложенности: Если в консоли или результатах видны проблемы с определением уровней, используйте параметр
--verbose
для детальной диагностики. -
Изображения не отображаются в документации ERP: Парсер включает специальную обработку для различных типов документации. Для документации ERP реализована дополнительная логика обработки путей изображений с учетом специфики этой документации. Если все же возникают проблемы с отображением:
- Запустите скрипт без параметра
--headless
для отслеживания загрузки изображений - Проверьте папку
images
сохраненной страницы на наличие подпапок вида.files
- В браузере откройте инструменты разработчика (F12) для анализа ошибок загрузки ресурсов
- Запустите скрипт без параметра