COVID-19 Data Analysis using AWS Glue & Redshift Serverless

This project demonstrates an end-to-end ETL pipeline to analyze COVID-19 data using AWS Glue for transformation and Amazon Redshift Serverless for querying.

🔧 Technologies Used

AWS S3
AWS Glue Crawler & Glue ETL Job
AWS Glue Data Catalog
Amazon Redshift Serverless
SQL (Redshift)
Pandas (for initial testing)

📦 ETL Pipeline Steps

Uploaded raw owid-covid-data.csv to S3.
Created a Glue Crawler to scan and generate metadata.
Designed a Glue Job to clean and write Parquet data back to S3.
Linked cleaned data to Redshift using External Schema.
Performed analysis using Redshift SQL Editor.

📊 Key Queries

Top countries by total cases
Death-to-case ratio
Peak daily and 7-day average new cases
Cases per 100 people

See sql/SQL QUERIES.txt for complete query set.

📁 Structure

See project structure and file details in the repository.

📄 Report

Detailed project steps, issues, resolutions, and outcomes are documented in docs/ETL.pdf.

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
Stepwise output on Console		Stepwise output on Console
dataset		dataset
docs		docs
glue job		glue job
sql		sql
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

COVID-19 Data Analysis using AWS Glue & Redshift Serverless

🔧 Technologies Used

📦 ETL Pipeline Steps

📊 Key Queries

📁 Structure

📄 Report

About

Uh oh!

Releases

Packages

Languages

vaishnavipaswan/Pandemic-Insights-ETL

Folders and files

Latest commit

History

Repository files navigation

COVID-19 Data Analysis using AWS Glue & Redshift Serverless

🔧 Technologies Used

📦 ETL Pipeline Steps

📊 Key Queries

📁 Structure

📄 Report

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages