Данный проект посвящен исследованию генеративных моделей для создания потенциальных лекарственных молекулярных соединений. Работа основана на статье-победителе Международного Салона Образования (с публикацией в журнал К1 ВАК РФ) и реализует различные алгоритмы генерации молекул с использованием представления SMILES.
- Генерация лекарственных молекулярных соединений с использованием различных алгоритмов
- Обработка данных в формате SMILES (Simplified Molecular Input Line Entry System)
- Оценка качества генерируемых молекул с помощью метрики QED (Quantitative Estimate of Druglikeness)
- Сравнение эффективности различных генеративных подходов
- Сэмплирование с температурой - контролируемая генерация с регулировкой случайности
- Top-K Sampling - выбор из K наиболее вероятных токенов
- Жадный поиск (Greedy Search) - выбор наиболее вероятного токена на каждом шаге
- Вариационный автоэнкодер (VAE) - генерация через скрытое пространство
V_GRU.ipynb
- реализация модели на основе GRU блоков, а также алгоритмов: жадный поиск, Top-K Sampling и сэмплирования с температуройV_VAE.ipynb
- реализация вариационного автоэнкодераdata/
- датасет с молекулярными соединениями (250,000 молекул в формате SMILES)logs/
- логи обучения моделей
- Язык программирования: Python
- Основные библиотеки: TensorFlow, RDKit для работы с химическими данными
- Архитектура: Рекуррентные нейронные сети на базе GRU
- Метрика оценки: QED (диапазон 0-1, где 1 означает максимальное сходство с лекарственными препаратами)
Исследование показало, что:
- Модели на базе сэмплирования и VAE демонстрируют наилучшие результаты по метрике QED
- Жадный поиск генерирует неадекватные структуры для дальнейших исследований
- Другие алгоритмы показывают приемлемые результаты и могут использоваться для генерации лекарственных соединений
- Клонируйте репозиторий
- Установите необходимые зависимости
- Запустите соответствующий Jupyter notebook для обучения или генерации
- Сгенерированные молекулы требуют дополнительной проверки специалистами
Полный текст исследования доступен по ссылке: https://top-technologies.ru/ru/article/view?id=39067
MIT License