NLP Georgian Language Corpus 🇬🇪

This project started as a university assignment for natural language processing: collecting clean Georgian text from Common Crawl data.

Scraping Georgian websites proved tricky — regexes, language detection, and URL filters all fell short. This code is a reference point, not a perfect solution.

The resulting corpus is publicly available on Hugging Face:
👉 https://huggingface.co/datasets/TomC333/georgian-language-corpus

It’s not massive or perfect, but it’s a useful starting point for anyone interested in Georgian NLP.

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
count.py		count.py
download_parquet.py		download_parquet.py
extract_georgian_text.py		extract_georgian_text.py
filter_and_extract.py		filter_and_extract.py
find_possibly_georgian_pages.py		find_possibly_georgian_pages.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

NLP Georgian Language Corpus 🇬🇪

About

Uh oh!

Releases

Packages

Languages

License

TomC333/NLP-Georgian-Language-Corpus

Folders and files

Latest commit

History

Repository files navigation

NLP Georgian Language Corpus 🇬🇪

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages