Link do vídeo: https://drive.google.com/file/d/1lndVEJK89OFRQ0tPUiTH4-Cudw48wZdX/view?usp=sharing
Este projeto implementa um pipeline de Machine Learning metodologicamente rigoroso e replicável para a predição de patologias em imagens de mamografia do dataset CBIS-DDSM.
O pipeline foi desenhado para tratar explicitamente desafios como o desbalanceamento de classes e o vazamento de dados (data leakage), buscando resultados realistas e confiáveis.
-
Clone o repositório:
git clone https://github.com/siqueiradaniel/t2-ia-saude.git cd t2-ia-saude
-
(Recomendado) Crie e ative um ambiente virtual:
python -m venv venv source venv/bin/activate # Linux/macOS venv\Scripts\activate # Windows
-
Instale as dependências:
pip install -r requirements.txt
-
Baixe o dataset do Kaggle: https://www.kaggle.com/datasets/awsaf49/cbis-ddsm-breast-cancer-image-dataset
-
Crie a estrutura de pastas esperada dentro do diretório do projeto:
mkdir -p data
-
Coloque as pastas
jpeg/
ecsv/
do dataset dentro dedata/
.
O script principal main.py
executa o pipeline completo.
Modo de Desenvolvimento:
Para rodar rapidamente com um subconjunto dos dados, defina a flag ISDEVELOPING = True
em main.py
.
Modo de Produção (Avaliação Final):
Para a avaliação completa, defina a flag ISDEVELOPING = False
.
Execute o script:
python main.py
.
├── data/
│ ├── jpeg/
│ └── csv/
│ ├── dicom_info.csv
│ ├── mass_case_description_train_set.csv
│ ├── calc_case_description_train_set.csv
│ ├── mass_case_description_test_set.csv
│ └── calc_case_description_test_set.csv
├── datasets/
│ └── dataloader.py
├── models/
│ ├── my_cnn.py
│ └── pretrained.py
├── training/
│ ├── train.py
│ ├── validate.py
│ └── test.py
├── utils/
│ └── augmentation.py
├── main.py
├── requirements.txt
└── README.md
Arthur Roberto Barboza Maciel
Daniel Maximo Gramlich
Daniel Siqueira de Oliveira