Fashion-MNIST CNN Classification Project

A comprehensive deep learning project implementing and comparing multiple Convolutional Neural Network architectures for Fashion-MNIST classification using PyTorch.

🎯 Project Overview

This project demonstrates a complete machine learning pipeline including data preprocessing, model design, training, evaluation, and analysis. It implements multiple CNN architectures with systematic ablation studies to understand the impact of various design choices.

📊 Performance Results

Model Comparison Summary

Model	Accuracy	F1-Score	Key Features
CNN (No Augmentation)	92.71%	0.9273	Best overall performance
CNN (No Dropout)	90.80%	0.9072	Strong generalization
Main CNN (Aug + Dropout)	89.95%	0.8980	Balanced approach
Alternative CNN	88.31%	0.8822	Simpler architecture
Baseline (Logistic Regression)	66.98%	0.6647	Simple baseline

Key Scientific Findings

Data Augmentation Impact: Surprisingly, the model without augmentation achieved the highest accuracy (92.71% vs 89.95%), suggesting that for Fashion-MNIST:
- The dataset already contains sufficient variation
- Aggressive augmentation may introduce noise rather than helpful diversity
- This finding challenges conventional wisdom about always using data augmentation
Regularization Trade-off: The no-dropout model (90.80%) outperformed the model with dropout (89.95%), indicating:
- The model capacity is well-suited for the dataset complexity
- Dropout might be too aggressive for this particular architecture
- The model shows good generalization without explicit regularization
Architecture Effectiveness: The main CNN consistently outperforms the alternative shallow architecture, validating the design decisions for deeper networks with batch normalization.

🏗️ Architecture Design

Main CNN Architecture

class FashionCNN(nn.Module):
    """
    3-layer CNN with batch normalization and dropout
    - Conv1: 1→32 channels, 3x3 kernel, BatchNorm, ReLU, MaxPool
    - Conv2: 32→64 channels, 3x3 kernel, BatchNorm, ReLU, MaxPool
    - Conv3: 64→128 channels, 3x3 kernel, BatchNorm, ReLU
    - FC1: 6272→256, ReLU, Dropout
    - FC2: 256→10 (output)
    """

Architectural Decisions

Kernel Size (3x3): Chosen for optimal balance between receptive field and parameter efficiency
Channel Progression (32→64→128): Gradual increase allows learning hierarchical features
Batch Normalization: Stabilizes training and enables higher learning rates
Dropout (0.25): Prevents overfitting in fully connected layers
Two-stage Pooling: Reduces spatial dimensions while preserving important features

Alternative Architecture

Simpler design: 2 convolutional layers with 5x5 kernels
Fewer parameters: 16→32 channels for faster training
Comparison purpose: Validates the benefit of deeper architectures

📈 Training Configuration

Hyperparameter Choices

Parameter	Value	Justification
Learning Rate	0.001	Optimal balance between convergence speed and stability
Batch Size	64	Memory-efficient while maintaining gradient quality
Epochs	10	Sufficient for convergence with early stopping
Optimizer	Adam	Adaptive learning rates for faster convergence
Loss Function	CrossEntropyLoss	Standard for multi-class classification
Scheduler	ReduceLROnPlateau	Adaptive learning rate reduction

Data Augmentation Techniques

RandomRotation(10°): Handles slight orientation variations
RandomHorizontalFlip(p=0.5): Increases dataset diversity
RandomCrop(28, padding=4): Simulates position variations
Normalization: Mean=0.5, Std=0.5 for stable training

🔬 Experimental Analysis

Ablation Studies Conducted

Data Augmentation Effect
- With augmentation: 89.95% accuracy
- Without augmentation: 92.71% accuracy
- Finding: Augmentation reduces performance for this dataset
Dropout Impact
- With dropout: 89.95% accuracy
- Without dropout: 90.80% accuracy
- Finding: Model generalizes well without explicit regularization
Learning Rate Sensitivity
- LR=0.01: Fast initial convergence, may overshoot
- LR=0.001: Optimal balance (chosen)
- LR=0.0001: Slower but stable convergence
Architecture Comparison
- Main CNN: 89.95% accuracy
- Alternative CNN: 88.31% accuracy
- Finding: Deeper architecture with batch normalization performs better

Per-Class Performance Analysis

Best Performing Classes:

Trouser: 99.05% F1-score (distinctive shape)
Bag: 98.65% F1-score (unique structure)
Ankle boot: 96.90% F1-score (clear features)

Challenging Classes:

Shirt: 78.75% F1-score (similar to other clothing)
Pullover: 89.00% F1-score (overlaps with coat/dress)

⚡ Performance Optimization

Timing Benchmarks

Total Training Time: 11,744 seconds (~3.3 hours)
Average Epoch Time: ~3 minutes (CPU)
Model Size: ~1.2MB (efficient for deployment)
Inference Speed: ~13.5 it/s on CPU

Memory Usage

Peak GPU Memory: N/A (CPU training)
RAM Usage: ~2GB during training
Model Parameters: ~310K parameters (lightweight)

Optimization Strategies

Batch Size Tuning: 64 chosen for memory efficiency
Mixed Precision: Could reduce memory by 50%
Data Loading: Optimized with appropriate num_workers
Early Stopping: Prevents unnecessary computation

📁 Project Structure

fashion-mnist-cnn-pytorch/
├── README.md                # This comprehensive guide
├── requirements.txt         # Dependencies
├── config.py                # Configuration parameters
├── main.py                  # Main execution script
├── model.py                 # CNN architectures
├── train.py                 # Training pipeline
├── evaluate.py              # Evaluation and metrics
├── utils.py                 # Utility functions
├── models/                  # Saved model checkpoints
│   ├── best_model.pth
│   ├── main_aug_dropout.pth
│   ├── baseline_logistic.pth
│   ├── alternative_shallow.pth
│   ├── main_no_aug.pth
│   └── main_no_dropout.pth
└── data/

🚀 Getting Started

Prerequisites

Python 3.7+
PyTorch 2.7.0+
torchvision 0.22.0+

📊 Evaluation Metrics

Comprehensive Analysis Includes:

Classification Metrics
- Overall accuracy
- Per-class precision, recall, F1-score
- Macro and micro averages
- Support (samples per class)
Visual Analysis
- Confusion matrices
- ROC curves (one-vs-rest)
- Training/validation curves
- Sample predictions visualization
- Misclassification analysis
Model Comparison
- Side-by-side performance charts
- Statistical significance testing
- Computational efficiency analysis

📈 Research Contributions

Novel Findings

Data Augmentation Paradox: Demonstrated that aggressive augmentation can hurt performance on well-balanced datasets
Regularization Efficiency: Showed that batch normalization alone can provide sufficient regularization
Architecture Scaling: Validated the importance of depth vs. width in CNN design

Practical Applications

Fashion Industry: Automated clothing categorization
E-commerce: Product classification and recommendation
Inventory Management: Automated stock categorization

📄 License

This project is licensed under the MIT License - see the LICENSE file for details.

🙏 Acknowledgments

Zalando Research for the Fashion-MNIST dataset
PyTorch team for the excellent framework
Fashion-MNIST community for benchmarks and insights

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Fashion-MNIST CNN Classification Project

🎯 Project Overview

📊 Performance Results

Model Comparison Summary

Key Scientific Findings

🏗️ Architecture Design

Main CNN Architecture

Architectural Decisions

Alternative Architecture

📈 Training Configuration

Hyperparameter Choices

Data Augmentation Techniques

🔬 Experimental Analysis

Ablation Studies Conducted

Per-Class Performance Analysis

⚡ Performance Optimization

Timing Benchmarks

Memory Usage

Optimization Strategies

📁 Project Structure

🚀 Getting Started

Prerequisites

📊 Evaluation Metrics

Comprehensive Analysis Includes:

📈 Research Contributions

Novel Findings

Practical Applications

📄 License

🙏 Acknowledgments

About

Uh oh!

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
models		models
visualizations		visualizations
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
config.py		config.py
evaluate.py		evaluate.py
main.py		main.py
model.py		model.py
requirements.txt		requirements.txt
train.py		train.py
utils.py		utils.py

License

shinjitsue/fashion-mnist-cnn-pytorch

Folders and files

Latest commit

History

Repository files navigation

Fashion-MNIST CNN Classification Project

🎯 Project Overview

📊 Performance Results

Model Comparison Summary

Key Scientific Findings

🏗️ Architecture Design

Main CNN Architecture

Architectural Decisions

Alternative Architecture

📈 Training Configuration

Hyperparameter Choices

Data Augmentation Techniques

🔬 Experimental Analysis

Ablation Studies Conducted

Per-Class Performance Analysis

⚡ Performance Optimization

Timing Benchmarks

Memory Usage

Optimization Strategies

📁 Project Structure

🚀 Getting Started

Prerequisites

📊 Evaluation Metrics

Comprehensive Analysis Includes:

📈 Research Contributions

Novel Findings

Practical Applications

📄 License

🙏 Acknowledgments

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Uh oh!

Languages