Структура веб-приложения состоит из:
- файла app.py, в котормо непосредственно исполняется код с анализом текста
- файла analysis_results.xlsx, куда сохраняются результаты (этот файл может сохранить себе на ПК пользователь и посмотреть результаты по загружаемому файлу с текстом)
- файла worldcloud.png - для функционала скачивания облака слов
- файла upload.html в папке templates - в нём находится пользовательский интерфейс
Функционал:
- пользователь может загрузить файл с текстом только в формате .txt
- после проведение анализа пользователь получает два файла:
- файл analysis_results.xlsx - представляет из себя эксель файл с несколькими листами внутри, на каждом из которых в виде таблиц представлены результаты каждого вида анализа
- файл в формате .png - это облако слов
Итоговый файл analysis_results.xlsx, который получает пользователь состоит из: 1. Отдельного листа с результами анализа частотности слов 2. Отдельного листа с результатами анала LDA моделирования (топ-5 топиков) 3. Отдельного листа с результатами сентимент анализа (sentiment-score) 4. Отдельного листа с результатми анализа лексического разнообразия текста и других статистчиеских показателей
Результаты работы проекта проверялись на файле war_and_peace.ru.txt. Лежит в репозитории
В файле "Тематический анализ текста.ipynb" альтернативный вариант скрипта по анализу тексат в формате jupiter-ноутбук