X-MAS-Hack

Хакатон по распознаванию вида документа

Проблема

Проблема: большой бизнес — это всегда много договоров. При этом высококвалифицированные специалисты нередко задействованы в рутинных задачах по регистрации и анализу документов. Один из первых этапов работы с документами — маршрутизация. В зависимости от вида договора и других параметров выбирается дальнейший маршрут согласования и регламент проверки. Сроки от регистрации документа до того, как он попадает к нужному сотруднику могут достигать 14 дней.

Технологии: Python, Transformers, BERT, NLP, NLU, text classification, explainable ML decisions.

Данные для обучения: 120 договоров с указанием их видов.

Задача

Задача: разработать решение для автоматического определения вида договора. Решение должно принимать на вход документ в форматах doc, docx, pdf и выдавать вид договора, а также интерпретировать результаты. Интерпретация результатов предполагает наличие признаков и критериев, по которым был выбран вид договора. Успех решение будет определяться не только по тому, насколько правильно определяется вид договора, но и по качеству интерпретации результатов.

Разработанное решение может быть использовано не только для автоматизации процесса по маршрутизации документов внутри компаний, но для выявления правовых рисков переквалификации договора и минимизации негативных последствий.

Решение:

Финальным решением задачм хакатона является телеграмм-бот: DocumentTypeChecker

Инструкции:

classes.json - инициальный документ с метками классов

dataset_noise.csv - сформированный размеченный и расширенный датасет с шумом

Document_type_checker.ipynb - тетрадка с ботом

Document_type_checker.py - файл с реализацией препроцессинга и бота

EDA_final.ipynb - тетрадка с эксплораторным анализом

keyphrases2.txt - текстовый файл с ключевыми фразами

LabelEncoder.pkl, logistic_model.pkl, tfidf.pkl - кодировщик, используемая модель и векторизатор

noise_class.json - документ с метками классов расширенного датасет

Textract запускать через докер образ: docker run -p 8080:8080 bespaloff/textract-rest-api

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

X-MAS-Hack

Проблема

Задача

Решение:

Инструкции:

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
Document_type_checker.ipynb		Document_type_checker.ipynb
Document_type_checker.py		Document_type_checker.py
EDA_final.ipynb		EDA_final.ipynb
LabelEncoder.pkl		LabelEncoder.pkl
README.md		README.md
classes.json		classes.json
dataset_noise.csv		dataset_noise.csv
keyphrases2.txt		keyphrases2.txt
logistic_model.pkl		logistic_model.pkl
noise_class.json		noise_class.json
tfidf.pkl		tfidf.pkl

PabloKarpacho/X-MAS-Hack

Folders and files

Latest commit

History

Repository files navigation

X-MAS-Hack

Проблема

Задача

Решение:

Инструкции:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages