Replies: 1 comment 1 reply
-
Весь вопрос какие PDF-файлы. Если созданные в редакторе, то они довольно легко конвертируются различными open-source программами. Распознавание по технологии OCR неободимо только для PDF-файлов, хранящих сканированные страницы Мы будем поддерживать ТОЛЬКО второй вариант PDF? Или оба? |
Beta Was this translation helpful? Give feedback.
1 reply
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
В рамках итерации необходимо создать тестовый стенд, демонстрирующий распознавание pdf документов по технологии OCR и сохранение их в текстовых файлах и поиск по содержимому документов.
Пользователю будет доступен интерфейс стандартного ember-приложения. Объектом данных будет выступать сущность Report, у которой будет один параметр - файл отчета.
Пользователь может загружать отчеты в формате pdf.
При загрузке файла, происходит его распознавание и сохранение в виде текстового файла. Также при этом происходит загрузка файла в индексную БД ElasticSearch.
В ember-приложении пользователю будет доступна функция поиска по тексту. В результате поиска будет выдан список имен файлов-отчетов, в содержании которого текст был найден.
Схема стенда:
Репозиторий: https://github.com/Flexberry/Flexberry.ReportsOcrAndSearch.Sample
Ветка: main
Beta Was this translation helpful? Give feedback.
All reactions