ChemX_dbt

Полный ELT-проект на базе dbt для обработки, нормализации и аналитики данных по наноматериалам и малым молекулам. Реализована слоистая архитектура: raw - unified - curated - serving (statistics + ML).

Требования и установка

Клонировать репозиторий и перейти в папку:
```
git clone https://github.com/ai-chem/ChemX_dbt.git
cd ChemX_dbt
```

Настроить соединение с БД в profiles.yml:

your_profile:
  target: dev
  outputs:
    dev:
      type: postgres
      host: ...
      user: ...
      password: ...
      dbname: ...
      schema: staging
      threads: 4

Поставить dbt-core и плагины:
```
pip install dbt-core dbt-postgres
```

Структура проекта

.
├─ data/
│  └─ raw/                      # Исходные CSV + скрипт загрузки
├─ macros/                      # Jinja-макросы для парсинга, нормализации и тестов
├─ models/
│  ├─ CURATED/                  # Очистка и подготовка
│  ├─ UNIFIED/                  # Оригинальные данные с небольшими изменениями
│  └─ SERVING/                  # statistics + ML tables + all_data
├─ analyses/                    # SQL-скрипты для доп. аналитики
├─ tests/                       # Пользовательские проверки (sql)
├─ seeds/                       # Не используется
├─ snapshots/                   # Не используется
├─ dbt_project.yml              # Основной конфиг dbt
├─ profiles.yml                 # Профиль подключения

Глубина папок внутри models подробно описана ниже.

Основные директории и модели

1. data/raw

*.csv — исходники по 10 темам (Benzimidazoles, Cytotox, …, Synergy).
scripts/load_csv_to_postgres.py — загружает raw CSV в СУБД.

2. macros

analyses_raw / analyses_curated — макросы для автоматического сбора базовой статистики (таблица/столбцы).
parsing_curated — парсинг чисел, дат, сложных текстовых полей.
normalize_curated — стандартизация имен частиц, форм, единиц.
Общие макросы: deduplicate_model, test_no_duplicates, generate_canonical_name и т.п.

3. models/CURATED

3.1. nanomaterials & small_molecules

prep/ — промежуточные модели (cur_<topic>.sql)
final/ — итоговые очищенные таблицы + schema.yml с описанием колонок

3.2. star_schema

Для каждой темы:

dim_* — измерения (наночастица, публикация, источник, бактерия и т.д.)
fact_*_experiments — события/измерения, ссылаются на dim_*

Каждый каталог содержит SQL-файлы и schema.yml.

4. models/UNIFIED

uni_<topic>.sql — объединяет данные из CURATED по всем источникам в одну витрину.
Один общий schema.yml для всех unified-моделей.

5. models/SERVING

5.1. all_data

Сводные витрины: serving_all_data_<topic>.sql.

5.2. ml

Таблицы, готовые к обучению ML: serving_ml_<topic>.sql + schema.yml.

5.3. statistics

Для каждой темы — отдельная папка:

schema.yml
serving_analytics_column_stats_<topic>.sql
serving_analytics_row_stats_<topic>.sql
serving_analytics_top_categories_<topic>.sql

Запуск и основные команды

# Построить весь пайплайн
dbt build

# Запустить тесты
dbt test

# Сгенерировать и просмотреть документацию
dbt docs generate
dbt docs serve

Особенности проекта

Составной ключ для наночастицы nanoparticle + normalized_shape + has_coating + np_size_avg_nm используется во всех dim-таблицах кроме nanomag и nanozymes, чтобы гарантировать уникальность и однозначность.

README будет регулярно обновляться по мере роста проекта.

Name		Name	Last commit message	Last commit date
Latest commit History 43 Commits
analyses		analyses
data/raw		data/raw
description_of_datasets		description_of_datasets
macros		macros
models		models
seeds		seeds
snapshots		snapshots
tests		tests
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
.user.yml		.user.yml
.yamllint.yaml		.yamllint.yaml
README.md		README.md
dbt_project.yml		dbt_project.yml
package-lock.yml		package-lock.yml
packages.yml		packages.yml
profiles.yml		profiles.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

ChemX_dbt

Требования и установка

Структура проекта

Основные директории и модели

1. data/raw

2. macros

3. models/CURATED

3.1. nanomaterials & small_molecules

3.2. star_schema

4. models/UNIFIED

5. models/SERVING

5.1. all_data

5.2. ml

5.3. statistics

Запуск и основные команды

Особенности проекта

About

Uh oh!

Releases

Packages

Languages

ai-chem/ChemX-dbt

Folders and files

Latest commit

History

Repository files navigation

ChemX_dbt

Требования и установка

Структура проекта

Основные директории и модели

1. data/raw

2. macros

3. models/CURATED

3.1. nanomaterials & small_molecules

3.2. star_schema

4. models/UNIFIED

5. models/SERVING

5.1. all_data

5.2. ml

5.3. statistics

Запуск и основные команды

Особенности проекта

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages