Классификация, кластеризация корпуса текстов в научном стиле по радиолокации, газодинамике и наукометрии

This README is available in two languages

Russian version below 🇷🇺

English version follows 🇬🇧

Классификация, кластеризация корпуса текстов в научном стиле по радиолокации, газодинамике и наукометрии

Описание

Решаются задачи классификации и кластеризации корпуса текстов в научном стиле из трех областей науки: радиолокация, газодинамика, наукометрия. Классификацией решаются две задачи: по размеченому корпусу рукописей распознавание рубрики и распознавание перспектив публикации. Кластеризация решает те же самые задачи, только по неразмеченному корпусу рукописей.

Лицензия

Этот проект распространяется под лицензией CC BY-NC (Creative Commons Attribution-NonCommercial).

Цели проекта

На основании сходств и различий поступающего в научный журнал текста в научном стиле и существующего корпуса опубликованных в журнале статей и неопубликованных рукописей оценить:

возможность применения разных методов компьютерной лингвистики:
- классификации;
- кластеризации;
- глубокого обучения;
- doc2vec.
перспективы публикации в научном журнале;
возможность определения рубрики;
возможность определения рецензента.

Задачи проекта

Загрузить корпус текстов.
Провести очистку корпуса от наиболее часто используемых, но не несущих большого смысла стоп-слов, таких как: предлоги, числительные, местоимения, знаки препинания и т. д.
Применить векторизацию к очищенному корпусу текстов (bag-of-words, TF-IDF, HashVectorizer).
Применить методы кластеризации и классификации к векторизованному корпусу.

"Инструменты" проекта

регулярные выражения;
словарь стоп-слов;
морфологический анализатор;
векторизация методами:
- bag-of-words;
- TF-IDF;
- HashVectorizer.
машинное обучение методами классификации:
- KNeighborsClassifier;
- LogisticRegression;
- MultinomialNB;
методы кластеризации:
- KMeans;
- DBSCAN;
- AgglomerativeClustering;
- MiniBatchKMeans.
глубинное обучения на полносвязной нейронной сети (FFNN).
метод приведения текстов к числам doc2vec.

Интересный результат

Даже при сильно разбалансе классов, полносвязная нейронная сеть выдала результат, близкий в 100% точности.

Результаты проекта

По размеченному корпусу рукописей можно определять рубрику практически со 100% точностью, использую полносвязную нейронную сеть, однако даже простой метод классификации KNeighborsClassifier даёт схожую точность.
Определение перспективы публикации не позволяет рекомендовать использование методов в работе с поступающими в журнал рукописями, однако возможно дело в количестве данных. Их увеличение возможно изменит результаты к лучшему.
Методы кластеризации дают точность на уровне 50%, что не может быть использовано для распознавания ни рубрики ни перспективы публикации рукописей.
Метод doc2vec позволяет найти рецензентов. По наиболее похожей рукописи можно выбрать тех же рецензентов, что её рецензировали для исследуемой рукописи.

Important

Тексты по радиолокации и газодинамике были взяты из научно-технического журнала Вестник Концерна ВКО "Алмаз - Антей" (с 2011 по 2024 годы), а тексты корпуса по наукометрии приведены для проверки работоспособности исследуемых алгоритмов и были взяты из опубликованных и неопубликованных работ автора по теме издания и продвижения научных журналов. Опубликованные тексты можно найти в интернете, не опубликованные нет.

Classification, clustering of a corpus of texts in scientific style for radar, gas dynamics, and scientometrics

Description

The problems of classification and clustering of a corpus of texts in scientific style from three fields of science — radar, gas dynamics, and scientometrics — are addressed here. For classification, we solve two tasks: recognizing the rubric and determining the prospects of publication based on a labeled corpus of manuscripts. Clustering solves these same tasks but uses an unlabeled corpus of manuscripts.

License

Distributed under the CC BY-NC 4.0 CC BY-NC (Creative Commons Attribution-NonCommercial).

Goals of the Project

Based on the similarities and differences between incoming scientific-style texts submitted to a scientific journal and existing corpora of both published journal articles and unpublished manuscripts, this project aims to assess:

The feasibility of applying various computational linguistics techniques:
- Classification
- Clustering
- Deep Learning
- doc2vec
Prospects for publication in a scientific journal
Opportunities for defining rubric
Possibility of identifying suitable reviewers

Objectives of the Project

Load the corpus of texts.
Cleanse the corpus by removing frequently used words that do not carry significant semantic value such as prepositions, numerals, pronouns, punctuation marks, etc.
Apply vectorization techniques to the cleansed corpus (Bag-of-Words, TF-IDF, HashVectorizer).
Perform clustering and classification analyses on the vectorized corpus.

Tools Used

Regular Expressions
Stop-word Dictionary
Morphological Analyzer
Vectorization Methods:
- Bag-of-Words
- TF-IDF
- HashVectorizer
Machine Learning Classification Models:
- KNeighborsClassifier
- LogisticRegression
- MultinomialNB
Clustering Algorithms:
- KMeans
- DBSCAN
- AgglomerativeClustering
- MiniBatchKMeans
Deep Learning via Feed-Forward Neural Network (FFNN)
Text-to-number transformation technique (doc2vec)

Notable Result

Despite severe class imbalances, the feed-forward neural network achieved nearly 100% accuracy.

Key Findings

Using the labeled corpus of manuscripts, it's possible to identify sections with near-perfect (~100%) accuracy when employing a feed-forward neural network. Even simpler classification algorithms like KNeighborsClassifier achieve similar levels of precision.
Determination of publication prospects doesn't yet justify recommending these methods for use with incoming manuscripts. This might improve if more data becomes available.
Clustering methods yield approximately 50% accuracy, which isn't sufficient for either recognizing sections or predicting publication potential.
The doc2vec approach allows finding appropriate reviewers by selecting those who previously reviewed similar manuscripts.

Important

The texts related to radar and gas dynamics were sourced from the Scientific Journal of "Almaz - Antey" Air & Space Defense Corporation (covering publications from 2011–2024). The texts for scientometric analysis were provided specifically to test algorithm effectiveness and were drawn from the author's own published and unpublished works focused on journal publishing and promotion. Published materials are accessible online, while unpublished ones remain confidential.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
classification_of_texts_in_scientific_style.ipynb		classification_of_texts_in_scientific_style.ipynb
licence		licence
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Классификация, кластеризация корпуса текстов в научном стиле по радиолокации, газодинамике и наукометрии

Описание

Лицензия

Цели проекта

Задачи проекта

"Инструменты" проекта

Интересный результат

Результаты проекта

Classification, clustering of a corpus of texts in scientific style for radar, gas dynamics, and scientometrics

Description

License

Goals of the Project

Objectives of the Project

Tools Used

Notable Result

Key Findings

About

Uh oh!

Releases

Packages

Languages

License

denisbolshakoff/classification_of_texts_in_scientific_style

Folders and files

Latest commit

History

Repository files navigation

Классификация, кластеризация корпуса текстов в научном стиле по радиолокации, газодинамике и наукометрии

Описание

Лицензия

Цели проекта

Задачи проекта

"Инструменты" проекта

Интересный результат

Результаты проекта

Classification, clustering of a corpus of texts in scientific style for radar, gas dynamics, and scientometrics

Description

License

Goals of the Project

Objectives of the Project

Tools Used

Notable Result

Key Findings

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages