Pipeline de Machine Learning para Classificação de Imagens de Mamografia

Link do vídeo: https://drive.google.com/file/d/1lndVEJK89OFRQ0tPUiTH4-Cudw48wZdX/view?usp=sharing

Pipeline de Machine Learning para Classificação de Imagens de Mamografia

Este projeto implementa um pipeline de Machine Learning metodologicamente rigoroso e replicável para a predição de patologias em imagens de mamografia do dataset CBIS-DDSM.
O pipeline foi desenhado para tratar explicitamente desafios como o desbalanceamento de classes e o vazamento de dados (data leakage), buscando resultados realistas e confiáveis.

Instalação

Clone o repositório:

git clone https://github.com/siqueiradaniel/t2-ia-saude.git
cd t2-ia-saude

(Recomendado) Crie e ative um ambiente virtual:

python -m venv venv
source venv/bin/activate  # Linux/macOS
venv\Scripts\activate     # Windows

Instale as dependências:
```
pip install -r requirements.txt
```

Download e Configuração do Dataset

Baixe o dataset do Kaggle: https://www.kaggle.com/datasets/awsaf49/cbis-ddsm-breast-cancer-image-dataset
Crie a estrutura de pastas esperada dentro do diretório do projeto:
```
mkdir -p data
```
Coloque as pastas jpeg/ e csv/ do dataset dentro de data/.

Execução

O script principal main.py executa o pipeline completo.

Modo de Desenvolvimento:
Para rodar rapidamente com um subconjunto dos dados, defina a flag ISDEVELOPING = True em main.py.

Modo de Produção (Avaliação Final):
Para a avaliação completa, defina a flag ISDEVELOPING = False.

Execute o script:

python main.py

Estrutura Esperada

.
├── data/
│   ├── jpeg/
│   └── csv/
│       ├── dicom_info.csv
│       ├── mass_case_description_train_set.csv
│       ├── calc_case_description_train_set.csv
│       ├── mass_case_description_test_set.csv
│       └── calc_case_description_test_set.csv
├── datasets/
│   └── dataloader.py
├── models/
│   ├── my_cnn.py
│   └── pretrained.py
├── training/
│   ├── train.py
│   ├── validate.py
│   └── test.py
├── utils/
│   └── augmentation.py
├── main.py
├── requirements.txt
└── README.md

Autores

Arthur Roberto Barboza Maciel
Daniel Maximo Gramlich
Daniel Siqueira de Oliveira

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Pipeline de Machine Learning para Classificação de Imagens de Mamografia

Instalação

Download e Configuração do Dataset

Execução

Estrutura Esperada

Autores

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
configs		configs
datasets		datasets
models		models
results		results
training		training
utils		utils
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt

intel-comp-saude-ufes/2025-1-P2-preditor-cancer-mama

Folders and files

Latest commit

History

Repository files navigation

Pipeline de Machine Learning para Classificação de Imagens de Mamografia

Instalação

Download e Configuração do Dataset

Execução

Estrutura Esperada

Autores

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages