Skip to content

Данная статья является победителем Международного Салона Образования. Текст публикации доступен по ссылке: https://top-technologies.ru/ru/article/view?id=39067

License

Notifications You must be signed in to change notification settings

ChayannFamali/Application-of-generative-models-for-prediction-of-drug-molecular-compounds

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

38 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Применение генеративных моделей для предсказания лекарственных молекулярных соединений

Описание

Данный проект посвящен исследованию генеративных моделей для создания потенциальных лекарственных молекулярных соединений. Работа основана на статье-победителе Международного Салона Образования (с публикацией в журнал К1 ВАК РФ) и реализует различные алгоритмы генерации молекул с использованием представления SMILES.

Основные возможности

  • Генерация лекарственных молекулярных соединений с использованием различных алгоритмов
  • Обработка данных в формате SMILES (Simplified Molecular Input Line Entry System)
  • Оценка качества генерируемых молекул с помощью метрики QED (Quantitative Estimate of Druglikeness)
  • Сравнение эффективности различных генеративных подходов

Реализованные алгоритмы

  1. Сэмплирование с температурой - контролируемая генерация с регулировкой случайности
  2. Top-K Sampling - выбор из K наиболее вероятных токенов
  3. Жадный поиск (Greedy Search) - выбор наиболее вероятного токена на каждом шаге
  4. Вариационный автоэнкодер (VAE) - генерация через скрытое пространство

Структура проекта

  • V_GRU.ipynb - реализация модели на основе GRU блоков, а также алгоритмов: жадный поиск, Top-K Sampling и сэмплирования с температурой
  • V_VAE.ipynb - реализация вариационного автоэнкодера
  • data/ - датасет с молекулярными соединениями (250,000 молекул в формате SMILES)
  • logs/ - логи обучения моделей

Технические детали

  • Язык программирования: Python
  • Основные библиотеки: TensorFlow, RDKit для работы с химическими данными
  • Архитектура: Рекуррентные нейронные сети на базе GRU
  • Метрика оценки: QED (диапазон 0-1, где 1 означает максимальное сходство с лекарственными препаратами)

Результаты

Исследование показало, что:

  • Модели на базе сэмплирования и VAE демонстрируют наилучшие результаты по метрике QED
  • Жадный поиск генерирует неадекватные структуры для дальнейших исследований
  • Другие алгоритмы показывают приемлемые результаты и могут использоваться для генерации лекарственных соединений

Использование

  1. Клонируйте репозиторий
  2. Установите необходимые зависимости
  3. Запустите соответствующий Jupyter notebook для обучения или генерации
  4. Сгенерированные молекулы требуют дополнительной проверки специалистами

Научная публикация

Полный текст исследования доступен по ссылке: https://top-technologies.ru/ru/article/view?id=39067

Лицензия

MIT License

About

Данная статья является победителем Международного Салона Образования. Текст публикации доступен по ссылке: https://top-technologies.ru/ru/article/view?id=39067

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published