Skip to content

Module of the DrugDesign project responsible for loading and pre-processing data from ChEMBL and PubChem, necessary for further modeling and analysis in drug development

License

Notifications You must be signed in to change notification settings

UmbrellaLeaf5/DrugDesign_data_analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 

Repository files navigation

DrugDesign Data Analysis

License: Unlicense Contributing

templated: generated from UmbrellaLeaf5/template_python_usual


Contents

Description

Π­Ρ‚ΠΎΡ‚ ΠΌΠΎΠ΄ΡƒΠ»ΡŒ ΠΎΡ‚Π²Π΅Ρ‡Π°Π΅Ρ‚ Π·Π° Π·Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ ΠΈ ΠΏΡ€Π΅Π΄Π²Π°Ρ€ΠΈΡ‚Π΅Π»ΡŒΠ½ΡƒΡŽ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ Π΄Π°Π½Π½Ρ‹Ρ… ΠΈΠ· ChEMBL ΠΈ PubChem, Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹Ρ… для дальнСйшСго модСлирования ΠΈ Π°Π½Π°Π»ΠΈΠ·Π° ΠΏΡ€ΠΈ Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ лСкарств.

ЦСль модуля:

  • АвтоматичСскоС скачиваниС Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ соСдинСниях, активностях ΠΈ ΠΌΠΈΡˆΠ΅Π½ΡΡ… ΠΈΠ· Π±Π°Π·Ρ‹ Π΄Π°Π½Π½Ρ‹Ρ… ChEMBL, Π° Ρ‚Π°ΠΊΠΆΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ токсичности соСдинСний ΠΈΠ· PubChem ChemIDplus.
  • ΠŸΡ€Π΅ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Π½ΠΈΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚, ΠΏΡ€ΠΈΠ³ΠΎΠ΄Π½Ρ‹ΠΉ для обучСния ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ машинного обучСния.
  • Π€ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ ΠΈ очистка Π΄Π°Π½Π½Ρ‹Ρ… для ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ качСства ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

Documentation

ДокумСнтация, созданная с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Doxygen.

Installation

  1. ΠšΠ»ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ рСпозитория:

    ΠŸΠ΅Ρ€Π΅Π΄ Ρ‚Π΅ΠΌ ΠΊΠ°ΠΊ Π½Π°Ρ‡Π°Ρ‚ΡŒ, Π²Π°ΠΌ Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ ΠΊΠ»ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ с исходным ΠΊΠΎΠ΄ΠΎΠΌ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π°.

    git clone https://gitlab.com/UmbrellaLeaf5/drugdesign_parsing.git

    ΠŸΠ΅Ρ€Π΅ΠΉΠ΄ΠΈΡ‚Π΅ Π² Π΄ΠΈΡ€Π΅ΠΊΡ‚ΠΎΡ€ΠΈΡŽ, ΠΊΡƒΠ΄Π° Π±Ρ‹Π» ΠΊΠ»ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Π½ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ:

    cd DrugDesign_data_analysis
  2. Π‘ΠΎΠ·Π΄Π°Π½ΠΈΠ΅ Π²ΠΈΡ€Ρ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ окруТСния:

    ΠžΡ‚ΠΊΡ€ΠΎΠΉΡ‚Π΅ Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°Π» ΠΈΠ»ΠΈ ΠΊΠΎΠΌΠ°Π½Π΄Π½ΡƒΡŽ строку Π² ΠΊΠΎΡ€Π½Π΅Π²ΠΎΠΉ Π΄ΠΈΡ€Π΅ΠΊΡ‚ΠΎΡ€ΠΈΠΈ вашСго ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° (Ρ‚Π°ΠΌ, Π³Π΄Π΅ находится Ρ„Π°ΠΉΠ» requirements.txt) ΠΈ Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΡ‚Π΅ ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΡƒΡŽ ΠΊΠΎΠΌΠ°Π½Π΄Ρƒ для создания Π²ΠΈΡ€Ρ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ окруТСния с ΠΈΠΌΠ΅Π½Π΅ΠΌ .venv:

    python3 -m venv .venv

    ΠΈΠ»ΠΈ

    python -m venv .venv
    • Если Ρƒ вас установлСна Ρ‚ΠΎΠ»ΡŒΠΊΠΎ вСрсия Python 3, ΠΌΠΎΠΆΠ΅Ρ‚Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ python вмСсто python3.
    • Если Π²ΠΈΡ€Ρ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ΅ ΠΎΠΊΡ€ΡƒΠΆΠ΅Π½ΠΈΠ΅ ΡƒΠΆΠ΅ сущСствуСт (Π²Ρ‹ Π΅Π³ΠΎ создавали Ρ€Π°Π½Π΅Π΅), пропуститС этот шаг.
  3. Активация Π²ΠΈΡ€Ρ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ окруТСния:

    АктивируйтС Π²ΠΈΡ€Ρ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ΅ ΠΎΠΊΡ€ΡƒΠΆΠ΅Π½ΠΈΠ΅, Ρ‡Ρ‚ΠΎΠ±Ρ‹ Python использовал Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ, установлСнныС Π²Π½ΡƒΡ‚Ρ€ΠΈ Π½Π΅Π³ΠΎ:

    • Linux/macOS:

      source .venv/bin/activate
    • Windows (Command Prompt):

      .venv\Scripts\activate
    • Windows (PowerShell):

      .venv\Scripts\Activate.ps1

    ПослС Π°ΠΊΡ‚ΠΈΠ²Π°Ρ†ΠΈΠΈ Π²Ρ‹ ΡƒΠ²ΠΈΠ΄ΠΈΡ‚Π΅ (.venv) Π² Π½Π°Ρ‡Π°Π»Π΅ строки Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°Π»Π°, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰Π΅Π΅ Π½Π° Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ Π²ΠΈΡ€Ρ‚ΡƒΠ°Π»ΡŒΠ½ΠΎΠ΅ ΠΎΠΊΡ€ΡƒΠΆΠ΅Π½ΠΈΠ΅ Π°ΠΊΡ‚ΠΈΠ²Π½ΠΎ.

  4. Установка зависимостСй ΠΈΠ· requirements.txt:

    УстановитС всС Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠΈ, пСрСчислСнныС Π² Ρ„Π°ΠΉΠ»Π΅ requirements.txt, Π²Ρ‹ΠΏΠΎΠ»Π½ΠΈΠ² ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΡƒΡŽ ΠΊΠΎΠΌΠ°Π½Π΄Ρƒ:

    ./.venv/Scripts/pip install -r requirements.txt

    ΠΈΠ»ΠΈ просто:

    pip install -r requirements.txt

Или просто ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠΉΡ‚Π΅ uv:

uv venv .venv
  • Linux/macOS:

    source .venv/bin/activate
  • Windows (Git Bash):

    source .venv/Scripts/activate
  • Windows (Command Prompt):

    .venv\Scripts\activate
  • Windows (PowerShell):

    .venv\Scripts\Activate.ps1
uv pip install -r requirements.txt

P.S. ΠΎΠ΄Π½ΠΎΠΉ строкой:

uv venv .venv && source .venv/Scripts/activate && uv pip install -r requirements.txt

Configurations

Π€Π°ΠΉΠ» config.json содСрТит ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ ΠΊΠΎΠ½Ρ„ΠΈΠ³ΡƒΡ€Π°Ρ†ΠΈΠΈ для Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ ΠΈ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…, Π² основном сфокусированного Π½Π° Π±Π°Π·Π°Ρ… Π΄Π°Π½Π½Ρ‹Ρ… ChEMBL ΠΈ PubChem. Он опрСдСляСт настройки для Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ соСдинСний, активностСй, ΠΊΠ»Π΅Ρ‚ΠΎΡ‡Π½Ρ‹Ρ… Π»ΠΈΠ½ΠΈΠΉ ΠΈ ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΎ ΠΌΠΈΡˆΠ΅Π½ΡΡ… ΠΈΠ· ChEMBL, Π° Ρ‚Π°ΠΊΠΆΠ΅ Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ токсичности ΠΈΠ· PubChem.

ΠžΠ±Ρ‰ΠΈΠ΅ настройки

  • testing_flag: boolean - логичСский Ρ„Π»Π°Π³, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ, ΠΊΠΎΠ³Π΄Π° установлСн Π² true, Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ Ρ€Π΅ΠΆΠΈΠΌ тСстирования (ΠΎΠ³Ρ€Π°Π½ΠΈΡ‡ΠΈΠ²Π°Π΅Ρ‚ количСство Π·Π°Π³Ρ€ΡƒΠΆΠ°Π΅ΠΌΡ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… для ускорСния тСстирования). ΠŸΡ€ΠΈ Ρ€Π°Π±ΠΎΡ‡Π΅ΠΉ эксплуатации Π΄ΠΎΠ»ΠΆΠ΅Π½ Π±Ρ‹Ρ‚ΡŒ установлСн Π² false.
  • skip_downloaded: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π»ΠΈ ΠΏΡ€ΠΎΠΏΡƒΡΠΊΠ°Ρ‚ΡŒ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΡƒ, Ссли Ρ„Π°ΠΉΠ»Ρ‹ ΡƒΠΆΠ΅ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‚ (ΠΏΠΎΠ»Π΅Π·Π½ΠΎ для ΠΏΠΎΠ²Ρ‚ΠΎΡ€Π½ΠΎΠ³ΠΎ запуска скрипта Π±Π΅Π· ΠΏΠ΅Ρ€Π΅Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ Π΄Π°Π½Π½Ρ‹Ρ…).
  • csv_separator: string - строка, ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡŽΡ‰Π°Ρ Ρ€Π°Π·Π΄Π΅Π»ΠΈΡ‚Π΅Π»ΡŒ ΠΏΠΎΠ»Π΅ΠΉ Π² CSV-Ρ„Π°ΠΉΠ»Π°Ρ… (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, "," ΠΈΠ»ΠΈ ";").
  • keyboard_end_message: string - сообщСниС, ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠ΅ выводится ΠΏΡ€ΠΈ Π·Π°Π²Π΅Ρ€ΡˆΠ΅Π½ΠΈΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ ΠΏΠΎ Π½Π°ΠΆΠ°Ρ‚ΠΈΡŽ клавиш (Ctrl+C/Ctrl+Z).

ChEMBL

ChEMBL_download_activities

ΠŸΠΎΠ΄Π·Π°Π΄Π°Ρ‡Π° Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ активностСй с ChEMBL для Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… мишСнСй ΠΈ ΠΊΠ»Π΅Ρ‚ΠΎΡ‡Π½Ρ‹Ρ… Π»ΠΈΠ½ΠΈΠΉ, которая выполняСтся ΠΏΡ€ΠΈ Π²ΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠΈ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹Ρ… Ρ„Π»Π°Π³ΠΎΠ² Π² Π΄Ρ€ΡƒΠ³ΠΈΡ… Π·Π°Π΄Π°Ρ‡Π°Ρ….

  • logger_label: string - ΠΌΠ΅Ρ‚ΠΊΠ°, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠ°Ρ для сообщСний ΠΆΡƒΡ€Π½Π°Π»Π°, связанных с этой Π·Π°Π΄Π°Ρ‡Π΅ΠΉ (для ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΈ Π² Π»ΠΎΠ³Π°Ρ…).
  • logger_color: string - Ρ†Π²Π΅Ρ‚ΠΎΠ²ΠΎΠΉ ΠΊΠΎΠ΄ для Π²Ρ‹Π²ΠΎΠ΄Π° ΠΆΡƒΡ€Π½Π°Π»Π°.
  • results_folder_name: string - имя ΠΏΠ°ΠΏΠΊΠΈ для хранСния Π·Π°Π³Ρ€ΡƒΠΆΠ΅Π½Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… ΠΎΠ± активности.
  • download_compounds_sdf: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π»ΠΈ Π΄ΠΎΠ³Ρ€ΡƒΠΆΠ°Ρ‚ΡŒ соСдинСния Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅ SDF.
  • filtering: dictionary - ΡΠ»ΠΎΠ²Π°Ρ€ΡŒ, содСрТащий ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ Π΄Π°Π½Π½Ρ‹Ρ… ΠΎΠ± активностях.
    • targets: dictionary - Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ для активностСй мишСнСй.
      • standard_relation: list[string] - список ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΉ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, =).
      • standard_units: list[string] - список Π΅Π΄ΠΈΠ½ΠΈΡ† измСрСния.
      • target_organism: list[string] - список Ρ‚ΠΈΠΏΠΎΠ² ΠΎΡ€Π³Π°Π½ΠΈΠ·ΠΌΠΎΠ².
      • standard_type: list[string] - список Ρ‚ΠΈΠΏΠΎΠ² ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ.
      • assay_type: list[string] - список Ρ‚ΠΈΠΏΠΎΠ² биологичСских тСстов.
    • cell_lines: dictionary - Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ для активностСй ΠΊΠ»Π΅Ρ‚ΠΎΡ‡Π½Ρ‹Ρ… Π»ΠΈΠ½ΠΈΠΉ.
      • standard_relation: list[string] - список ΡΠΎΠΎΡ‚Π½ΠΎΡˆΠ΅Π½ΠΈΠΉ (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€, =).
      • standard_units: list[string] - список Π΅Π΄ΠΈΠ½ΠΈΡ† измСрСния.
      • assay_organism: list[string] - список Ρ‚ΠΈΠΏΠΎΠ² ΠΎΡ€Π³Π°Π½ΠΈΠ·ΠΌΠΎΠ².
      • standard_type: list[string] - список Ρ‚ΠΈΠΏΠΎΠ² ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ.
      • assay_type: list[string] - список Ρ‚ΠΈΠΏΠΎΠ² биологичСских тСстов.

ChEMBL_download_cell_lines

Π—Π°Π΄Π°Ρ‡Π° ΠΏΠΎ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ ΠΊΠ»Π΅Ρ‚ΠΎΡ‡Π½Ρ‹Ρ… Π»ΠΈΠ½ΠΈΠΉ с ChEMBL.

  • download: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡ‚ΡŒ эту Π·Π°Π΄Π°Ρ‡Ρƒ Π² Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΌ запускС ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹.
  • logger_label: string - ΠΌΠ΅Ρ‚ΠΊΠ°, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠ°Ρ для сообщСний ΠΆΡƒΡ€Π½Π°Π»Π°, связанных с этой Π·Π°Π΄Π°Ρ‡Π΅ΠΉ.
  • logger_color: string - Ρ†Π²Π΅Ρ‚ΠΎΠ²ΠΎΠΉ ΠΊΠΎΠ΄ для Π²Ρ‹Π²ΠΎΠ΄Π° ΠΆΡƒΡ€Π½Π°Π»Π°.
  • results_folder_name: string - имя ΠΏΠ°ΠΏΠΊΠΈ для хранСния Π·Π°Π³Ρ€ΡƒΠΆΠ΅Π½Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ ΠΊΠ»Π΅Ρ‚ΠΎΡ‡Π½Ρ‹Ρ… линиях.
  • results_file_name: string - имя Ρ„Π°ΠΉΠ»Π° для сохранСния Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ ΠΊΠ»Π΅Ρ‚ΠΎΡ‡Π½Ρ‹Ρ… линиях.
  • download_activities: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π»ΠΈ Π·Π°Π³Ρ€ΡƒΠΆΠ°Ρ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅ ΠΎΠ± активности для ΠΊΠ»Π΅Ρ‚ΠΎΡ‡Π½Ρ‹Ρ… Π»ΠΈΠ½ΠΈΠΉ.
  • raw_csv_folder_name: string - имя ΠΏΠ°ΠΏΠΊΠΈ для хранСния Π½Π΅ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅ .csv.
  • raw_csv_g_drive_id: string - ΠΈΠ΄Π΅Π½Ρ‚ΠΈΡ„ΠΈΠΊΠ°Ρ‚ΠΎΡ€ Google.Drive Π°Ρ€Ρ…ΠΈΠ²Π°, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ Π»Π΅ΠΆΠ°Ρ‚ Π½Π΅ΠΎΡ‡ΠΈΡ‰Π΅Π½Π½Ρ‹Π΅ Ρ„Π°ΠΉΠ»Ρ‹ с Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΡ‹ΠΌΠΈ активностями (Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌ, Ρ‚Π°ΠΊ ΠΊΠ°ΠΊ активности ΠΊ ΠΊΠ»Π΅Ρ‚ΠΎΡ‡Π½Ρ‹ΠΌ линиям Ρ‡Π΅Ρ€Π΅Π· интСрфСйс chembl_webresource_client ΠΈΠ»ΠΈ API ChEMBL - Π½Π΅ Π²Ρ‹ΡˆΠ»ΠΎ).
  • download_all: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π»ΠΈ Π·Π°Π³Ρ€ΡƒΠΆΠ°Ρ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅ для всСх ΠΊΠ»Π΅Ρ‚ΠΎΡ‡Π½Ρ‹Ρ… Π»ΠΈΠ½ΠΈΠΉ ΠΈΠ»ΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ для ΠΊΠ»Π΅Ρ‚ΠΎΡ‡Π½Ρ‹Ρ… Π»ΠΈΠ½ΠΈΠΉ, ΡƒΠΊΠ°Π·Π°Π½Π½Ρ‹Ρ… Π² id_list.
  • download_compounds_sdf: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π»ΠΈ Π·Π°Π³Ρ€ΡƒΠΆΠ°Ρ‚ΡŒ соСдинСния Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅ .sdf.
  • id_list: list[string] - список ChEMBL_ID для ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½Ρ‹Ρ… ΠΊΠ»Π΅Ρ‚ΠΎΡ‡Π½Ρ‹Ρ… Π»ΠΈΠ½ΠΈΠΉ, для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Π·Π°Π³Ρ€ΡƒΠ·ΠΈΡ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅.

ChEMBL_download_compounds

Π—Π°Π΄Π°Ρ‡Π° ΠΏΠΎ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ соСдинСний с ChEMBL.

  • download: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡ‚ΡŒ эту Π·Π°Π΄Π°Ρ‡Ρƒ Π² Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΌ запускС ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹.
  • logger_label: string - ΠΌΠ΅Ρ‚ΠΊΠ°, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠ°Ρ для сообщСний ΠΆΡƒΡ€Π½Π°Π»Π°, связанных с этой Π·Π°Π΄Π°Ρ‡Π΅ΠΉ.
  • logger_color: string - Ρ†Π²Π΅Ρ‚ΠΎΠ²ΠΎΠΉ ΠΊΠΎΠ΄ для Π²Ρ‹Π²ΠΎΠ΄Π° ΠΆΡƒΡ€Π½Π°Π»Π°.
  • results_folder_name: string - имя ΠΏΠ°ΠΏΠΊΠΈ для хранСния Π·Π°Π³Ρ€ΡƒΠΆΠ΅Π½Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ соСдинСниях.
  • molfiles_folder_name: string - имя ΠΏΠ°ΠΏΠΊΠΈ для хранСния mol- ΠΈ sdf-Ρ„Π°ΠΉΠ»ΠΎΠ² соСдинСний.
  • combined_file_name: string - имя Ρ„Π°ΠΉΠ»Π° для сохранСния ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½Π΅Π½Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ соСдинСниях.
  • need_combining: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, Π½ΡƒΠΆΠ½ΠΎ Π»ΠΈ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡ‚ΡŒ соСдинСния Π² ΠΎΠ΄ΠΈΠ½ Ρ„Π°ΠΉΠ».
  • delete_after_combining: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π»ΠΈ ΡƒΠ΄Π°Π»ΡΡ‚ΡŒ ΠΎΡΡ‚Π°Π²ΡˆΠΈΠ΅ΡΡ Π΄Π°Π½Π½Ρ‹Π΅ послС объСдинСния.
  • mw_ranges: list[lists[float]] - список Π΄ΠΈΠ°ΠΏΠ°Π·ΠΎΠ½ΠΎΠ² молСкулярной массы, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΡ‹Ρ… для Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠΈ соСдинСний.

ChEMBL_download_targets

Π—Π°Π΄Π°Ρ‡Π° ΠΏΠΎ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ мишСнСй с ChEMBL.

  • download: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡ‚ΡŒ эту Π·Π°Π΄Π°Ρ‡Ρƒ Π² Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΌ запускС ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹.
  • logger_label: string - ΠΌΠ΅Ρ‚ΠΊΠ°, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠ°Ρ для сообщСний ΠΆΡƒΡ€Π½Π°Π»Π°, связанных с этой Π·Π°Π΄Π°Ρ‡Π΅ΠΉ.
  • logger_color: string - Ρ†Π²Π΅Ρ‚ΠΎΠ²ΠΎΠΉ ΠΊΠΎΠ΄ для Π²Ρ‹Π²ΠΎΠ΄Π° ΠΆΡƒΡ€Π½Π°Π»Π°.
  • results_folder_name: string - имя ΠΏΠ°ΠΏΠΊΠΈ для хранСния Π·Π°Π³Ρ€ΡƒΠΆΠ΅Π½Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ ΠΌΠΈΡˆΠ΅Π½ΡΡ….
  • results_file_name: string - имя Ρ„Π°ΠΉΠ»Π° для сохранСния Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ ΠΌΠΈΡˆΠ΅Π½ΡΡ….
  • download_activities: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π»ΠΈ Π·Π°Π³Ρ€ΡƒΠΆΠ°Ρ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅ ΠΎΠ± активностях для мишСнСй.
  • download_all: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π»ΠΈ Π·Π°Π³Ρ€ΡƒΠΆΠ°Ρ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅ для всСх мишСнСй ΠΈΠ»ΠΈ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ для мишСнСй, ΡƒΠΊΠ°Π·Π°Π½Π½Ρ‹Ρ… Π² id_list.
  • download_compounds_sdf: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π»ΠΈ Π·Π°Π³Ρ€ΡƒΠΆΠ°Ρ‚ΡŒ соСдинСния Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅ SDF.
  • id_list: list[string] - список ChEMBL_ID для ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½Ρ‹Ρ… мишСнСй, для ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… Π½Π΅ΠΎΠ±Ρ…ΠΎΠ΄ΠΈΠΌΠΎ Π·Π°Π³Ρ€ΡƒΠ·ΠΈΡ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅.

PubChem

PubChem_download_toxicity

Π—Π°Π΄Π°Ρ‡Π° ΠΏΠΎ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ΅ токсичности соСдинСний Π»ΠΈΠ½ΠΈΠΉ с PubChem (ChemIDPlus).

  • download: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π²Ρ‹ΠΏΠΎΠ»Π½ΡΡ‚ΡŒ эту Π·Π°Π΄Π°Ρ‡Ρƒ Π² Ρ‚Π΅ΠΊΡƒΡ‰Π΅ΠΌ запускС ΠΏΡ€ΠΎΠ³Ρ€Π°ΠΌΠΌΡ‹.
  • logger_label: string - ΠΌΠ΅Ρ‚ΠΊΠ°, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠ°Ρ для сообщСний ΠΆΡƒΡ€Π½Π°Π»Π°, связанных с этой Π·Π°Π΄Π°Ρ‡Π΅ΠΉ.
  • logger_color: string - Ρ†Π²Π΅Ρ‚ΠΎΠ²ΠΎΠΉ ΠΊΠΎΠ΄ для Π²Ρ‹Π²ΠΎΠ΄Π° ΠΆΡƒΡ€Π½Π°Π»Π°.
  • results_folder_name: string - имя ΠΏΠ°ΠΏΠΊΠΈ для хранСния Π·Π°Π³Ρ€ΡƒΠΆΠ΅Π½Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ токсичности.
  • molfiles_folder_name: string - имя ΠΏΠ°ΠΏΠΊΠΈ для хранСния mol- ΠΈ sdf-Ρ„Π°ΠΉΠ»ΠΎΠ² соСдинСний.
  • results_file_name: string - имя Ρ„Π°ΠΉΠ»Π° для сохранСния Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ токсичности.
  • combined_file_name: string - имя Ρ„Π°ΠΉΠ»Π° для сохранСния ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½Π΅Π½Π½Ρ‹Ρ… Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ токсичности.
  • need_combining: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, Π½ΡƒΠΆΠ½ΠΎ Π»ΠΈ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΡ‚ΡŒ Π΄Π°Π½Π½Ρ‹Π΅.
  • delete_after_combining: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π»ΠΈ ΡƒΠ΄Π°Π»ΡΡ‚ΡŒ ΠΎΡΡ‚Π°Π²ΡˆΠΈΠ΅ΡΡ Π΄Π°Π½Π½Ρ‹Π΅ послС объСдинСния.
  • download_compounds_sdf: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π»ΠΈ Π·Π°Π³Ρ€ΡƒΠΆΠ°Ρ‚ΡŒ соСдинСния Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅ SDF.
  • filtering: dictionary - ΡΠ»ΠΎΠ²Π°Ρ€ΡŒ, содСрТащий ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€Ρ‹ Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ токсичности.
    • kg: dictionary - Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ для Π΄ΠΎΠ·Ρ‹, ΡƒΠΊΠ°Π·Π°Π½Π½ΠΎΠΉ Π² mg/kg.
      • organism: list[string] - список ΠΎΡ€Π³Π°Π½ΠΈΠ·ΠΌΠΎΠ² для Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ.
      • route: list[string] - список способов ввСдСния для Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ.
      • testtype: list[string] - список Ρ‚ΠΈΠΏΠΎΠ² тСстирования для Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ.
    • m3: dictionary - Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΡ для Π΄ΠΎΠ·Ρ‹, ΡƒΠΊΠ°Π·Π°Π½Π½ΠΎΠΉ Π² mg/m3.
      • organism: list[string] - список ΠΎΡ€Π³Π°Π½ΠΈΠ·ΠΌΠΎΠ² для Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ.
      • route: list[string] - список способов ввСдСния для Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ.
      • testtype: list[string] - список Ρ‚ΠΈΠΏΠΎΠ² тСстирования для Ρ„ΠΈΠ»ΡŒΡ‚Ρ€Π°Ρ†ΠΈΠΈ.
    • need_filtering_by_characteristics: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт ΡΠΎΡ…Ρ€Π°Π½ΡΡ‚ΡŒ ΠΎΡ‚Ρ„ΠΈΠ»ΡŒΡ‚Ρ€ΠΎΠ²Π°Π½Π½Ρ‹Π΅ ΠΏΠΎ количСству Π²Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠΉ характСристик Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ токсичности.
    • occurrence_characteristics_number: integer - минимальноС количСство Π²Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠΉ характСристик Π² соотв. Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ.
    • characteristics_subfolder_name: string - имя ΠΏΠΎΠ΄ΠΏΠ°ΠΏΠΊΠΈ для хранСния ΠΎΡ‚Ρ„ΠΈΠ»ΡŒΡ‚Ρ€ΠΎΠ²Π°Π½Π½Ρ‹Ρ… ΠΏΠΎ количСству Π²Ρ…ΠΎΠΆΠ΄Π΅Π½ΠΈΠΉ характСристик Π²Ρ‹Π±ΠΎΡ€ΠΎΠΊ токсичности.
  • sleep_time: float - число с ΠΏΠ»Π°Π²Π°ΡŽΡ‰Π΅ΠΉ Ρ‚ΠΎΡ‡ΠΊΠΎΠΉ, ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‰Π΅Π΅ врСмя оТидания ΠΌΠ΅ΠΆΠ΄Ρƒ запросами (Π² сСкундах, для прСдотвращСния Π±Π»ΠΎΠΊΠΈΡ€ΠΎΠ²ΠΊΠΈ со стороны PubChem).
  • start_page: integer - число, ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‰Π΅Π΅ Π½Π°Ρ‡Π°Π»ΡŒΠ½ΡƒΡŽ страницу Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ токсичности.
  • end_page: integer - число, ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‰Π΅Π΅ послСднюю страницу Π΄Π°Π½Π½Ρ‹Ρ… ΠΎ токсичности.
  • limit: integer - число, ΠΏΡ€Π΅Π΄ΡΡ‚Π°Π²Π»ΡΡŽΡ‰Π΅Π΅ Π»ΠΈΠΌΠΈΡ‚ для ΠΊΠΎΠ»-Π²Π° Π΄Π°Π½Π½Ρ‹Ρ… Π·Π° 1 запрос.

Utils

CombineCSVInFolder

  • logger_label: string - ΠΌΠ΅Ρ‚ΠΊΠ°, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅ΠΌΠ°Ρ для сообщСний ΠΆΡƒΡ€Π½Π°Π»Π°, связанных с этой Π·Π°Π΄Π°Ρ‡Π΅ΠΉ.
  • logger_color: string - Ρ†Π²Π΅Ρ‚ΠΎΠ²ΠΎΠΉ ΠΊΠΎΠ΄ для Π²Ρ‹Π²ΠΎΠ΄Π° ΠΆΡƒΡ€Π½Π°Π»Π°.

VerboseLogger

  • verbose_print: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, Π²ΠΊΠ»ΡŽΡ‡Π΅Π½ Π»ΠΈ ΠΏΠΎΠ΄Ρ€ΠΎΠ±Π½Ρ‹ΠΉ Π²Ρ‹Π²ΠΎΠ΄ Π² консоль.
  • message_ljust: integer - ΡˆΠΈΡ€ΠΈΠ½Π° Π»Π΅Π²ΠΎΠ³ΠΎ выравнивания для сообщСний Π»ΠΎΠ³Π°.
  • exceptions_file: string - имя Ρ„Π°ΠΉΠ»Π° для записи ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠΉ.
  • output_to_exceptions_file: boolean - логичСский Ρ„Π»Π°Π³, ΡƒΠΊΠ°Π·Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΉ, слСдуСт Π»ΠΈ Π²Ρ‹Π²ΠΎΠ΄ΠΈΡ‚ΡŒ вСсь Π²Ρ‹Π²ΠΎΠ΄ Ρ‚ΠΎΠ»ΡŒΠΊΠΎ Π² Ρ„Π°ΠΉΠ» для записи ΠΈΡΠΊΠ»ΡŽΡ‡Π΅Π½ΠΈΠΉ.

ReTry

  • attempts_amount: integer - количСство ΠΏΠΎΠΏΡ‹Ρ‚ΠΎΠΊ ΠΏΠΎ ΡƒΠΌΠΎΠ»Ρ‡Π°Π½ΠΈΡŽ.
  • sleep_time: float - врСмя оТидания ΠΌΠ΅ΠΆΠ΄Ρƒ ΠΏΠΎΠΏΡ‹Ρ‚ΠΊΠ°ΠΌΠΈ (Π² сСкундах) ΠΏΠΎ ΡƒΠΌΠΎΠ»Ρ‡Π°Π½ΠΈΡŽ.

Sources

Official Python libraries documentation:

  • PubChemPy documentation. β€” ВСкст : элСктронный // Read the Docs : сайт
  • Requests: HTTP for Humansβ„’. β€” ВСкст : элСктронный // Read the Docs : сайт
  • Loguru. Python loggig made (stupidly) simple. β€” ВСкст : элСктронный // Read the Docs : сайт

ChEMBL sources:

  • A python client for accessing ChEMBL web services / Michal. β€” ВСкст : элСктронный // The ChEMBL-og : сайт
  • Explore Chemistry. Quickly find chemical information from authoritative sources. β€” ВСкст : элСктронный // PubChem: An official website of the United States government : сайт
  • ChEMBL is a manually curated database of bioactive molecules with drug-like properties. It brings together chemical, bioactivity and genomic data to aid the translation of genomic information into effective new drugs. β€” ВСкст : элСктронный // ChEMBL : сайт

PubChem sources:

  • Welcome to the IUPAC FAIR Chemistry Cookbook / International Union of Pure and Applied Chemistry. β€” ВСкст : элСктронный // GitHub Pages : сайт
  • PubChem_SDQ_Bibliometrics / ВинсСнт Π€. Π‘ΠΊΠ°Π»ΡŒΡ„Π°Π½ΠΈ, Π‘Π΅Ρ€Π΅Π½Π° Π‘. Π Π°Π»ΡŒΡ„, Али Аль ΠΠ»ΡŒΡˆΠ΅ΠΉΡ…, ДТСйсон Π­. Π‘Π°Ρ€Π°. β€” ВСкст : элСктронный // GitHub Pages : сайт
  • PubChem_SDQ_LitSearch / ВинсСнт Π€. Π‘ΠΊΠ°Π»ΡŒΡ„Π°Π½ΠΈ, Π‘Π΅Ρ€Π΅Π½Π° Π‘. Π Π°Π»ΡŒΡ„, Али Аль ΠΠ»ΡŒΡˆΠ΅ΠΉΡ…, ДТСйсон Π­. Π‘Π°Ρ€Π°. β€” ВСкст : элСктронный // GitHub Pages : сайт

Notebooks submodules (used, but removed from repo):

  • IUPAC WFChemCookbook repository / International Union of Pure and Applied Chemistry. β€” ВСкст : элСктронный // GitHub : сайт
  • FionaEBI ChEMBL notebooks repository / FionaEBI. β€” ВСкст : элСктронный // GitHub : сайт

About

Module of the DrugDesign project responsible for loading and pre-processing data from ChEMBL and PubChem, necessary for further modeling and analysis in drug development

Topics

Resources

License

Stars

Watchers

Forks