Synthetic-data-generation-ML-optimization-Tracomeco-Case-Study

The code files are separate into 2 main part:

Data generation, preprocessing

(Here by using preprocessing methods, we evaluate 3 preprocessing scenarios to ensure the models working properly, and to testify the synthetic data quality through every each adding methods)

Scenario 1

- Training: Synthetic data balanced by SMOTE

- Testing: Using Synthetic data & Real data (balanced by SMOTE & Raw)

Scenario 2

- Training: Synthetic data with additional features (COVID-19 related timeline converted to interger format + balanced by SMOTE)

- Testing: Using Synthetic data & Real data (balanced by SMOTE) + raw data

Scenario 3

- Training: Synthetic data with feature selection between Synthetic and Real data (Mutual Information Score + Scenario 2' methods)

- Testing: Using Synthetic data & Real data (balanced by SMOTE) + raw data

Machine Learning Optimization

Optimization 5 models (RF, DT, XGB, LGBM, LR)

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
CTGAN_model.ipynb		CTGAN_model.ipynb
README.md		README.md
Result.xlsx		Result.xlsx
balanced_feature_df_scenario2.csv		balanced_feature_df_scenario2.csv
balanced_feature_df_scenario3.csv		balanced_feature_df_scenario3.csv
balanced_feature_df_scenario4.csv		balanced_feature_df_scenario4.csv
balanced_synthetic_data_scenario2.csv		balanced_synthetic_data_scenario2.csv
balanced_synthetic_data_scenario3.csv		balanced_synthetic_data_scenario3.csv
balanced_synthetic_data_scenario4.csv		balanced_synthetic_data_scenario4.csv
data_observation.ipynb		data_observation.ipynb
model_for_scenario1.ipynb		model_for_scenario1.ipynb
model_for_scenario2.ipynb		model_for_scenario2.ipynb
model_for_scenario3.ipynb		model_for_scenario3.ipynb
model_for_scenario4.ipynb		model_for_scenario4.ipynb
preprocessed_df_scenario1.csv		preprocessed_df_scenario1.csv
preprocessed_df_scenario2.csv		preprocessed_df_scenario2.csv
preprocessed_df_scenario3.csv		preprocessed_df_scenario3.csv
preprocessed_df_scenario4.csv		preprocessed_df_scenario4.csv
preprocessing_methods.ipynb		preprocessing_methods.ipynb
synthetic_data_scenario1.csv		synthetic_data_scenario1.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Synthetic-data-generation-ML-optimization-Tracomeco-Case-Study

About

Uh oh!

Releases

Packages

Languages

tuannm0802/Synthetic-data-generation-ML-optimization-Tracomeco-Case-Study

Folders and files

Latest commit

History

Repository files navigation

Synthetic-data-generation-ML-optimization-Tracomeco-Case-Study

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages