This README is available in two languages | ||
---|---|---|
|
Классификация, кластеризация корпуса текстов в научном стиле по радиолокации, газодинамике и наукометрии
Решаются задачи классификации и кластеризации корпуса текстов в научном стиле из трех областей науки: радиолокация, газодинамика, наукометрия. Классификацией решаются две задачи: по размеченому корпусу рукописей распознавание рубрики и распознавание перспектив публикации. Кластеризация решает те же самые задачи, только по неразмеченному корпусу рукописей.
Этот проект распространяется под лицензией CC BY-NC (Creative Commons Attribution-NonCommercial).
На основании сходств и различий поступающего в научный журнал текста в научном стиле и существующего корпуса опубликованных в журнале статей и неопубликованных рукописей оценить:
- возможность применения разных методов компьютерной лингвистики:
- классификации;
- кластеризации;
- глубокого обучения;
- doc2vec.
- перспективы публикации в научном журнале;
- возможность определения рубрики;
- возможность определения рецензента.
- Загрузить корпус текстов.
- Провести очистку корпуса от наиболее часто используемых, но не несущих большого смысла стоп-слов, таких как: предлоги, числительные, местоимения, знаки препинания и т. д.
- Применить векторизацию к очищенному корпусу текстов (bag-of-words, TF-IDF, HashVectorizer).
- Применить методы кластеризации и классификации к векторизованному корпусу.
- регулярные выражения;
- словарь стоп-слов;
- морфологический анализатор;
- векторизация методами:
- bag-of-words;
- TF-IDF;
- HashVectorizer.
- машинное обучение методами классификации:
- KNeighborsClassifier;
- LogisticRegression;
- MultinomialNB;
- методы кластеризации:
- KMeans;
- DBSCAN;
- AgglomerativeClustering;
- MiniBatchKMeans.
- глубинное обучения на полносвязной нейронной сети (FFNN).
- метод приведения текстов к числам doc2vec.
Даже при сильно разбалансе классов, полносвязная нейронная сеть выдала результат, близкий в 100% точности.
- По размеченному корпусу рукописей можно определять рубрику практически со 100% точностью, использую полносвязную нейронную сеть, однако даже простой метод классификации
KNeighborsClassifier
даёт схожую точность. - Определение перспективы публикации не позволяет рекомендовать использование методов в работе с поступающими в журнал рукописями, однако возможно дело в количестве данных. Их увеличение возможно изменит результаты к лучшему.
- Методы кластеризации дают точность на уровне 50%, что не может быть использовано для распознавания ни рубрики ни перспективы публикации рукописей.
- Метод doc2vec позволяет найти рецензентов. По наиболее похожей рукописи можно выбрать тех же рецензентов, что её рецензировали для исследуемой рукописи.
Important
Тексты по радиолокации и газодинамике были взяты из научно-технического журнала Вестник Концерна ВКО "Алмаз - Антей" (с 2011 по 2024 годы), а тексты корпуса по наукометрии приведены для проверки работоспособности исследуемых алгоритмов и были взяты из опубликованных и неопубликованных работ автора по теме издания и продвижения научных журналов. Опубликованные тексты можно найти в интернете, не опубликованные нет.
Classification, clustering of a corpus of texts in scientific style for radar, gas dynamics, and scientometrics
The problems of classification and clustering of a corpus of texts in scientific style from three fields of science — radar, gas dynamics, and scientometrics — are addressed here. For classification, we solve two tasks: recognizing the rubric and determining the prospects of publication based on a labeled corpus of manuscripts. Clustering solves these same tasks but uses an unlabeled corpus of manuscripts.
Distributed under the CC BY-NC 4.0 CC BY-NC (Creative Commons Attribution-NonCommercial).
Based on the similarities and differences between incoming scientific-style texts submitted to a scientific journal and existing corpora of both published journal articles and unpublished manuscripts, this project aims to assess:
- The feasibility of applying various computational linguistics techniques:
- Classification
- Clustering
- Deep Learning
- doc2vec
- Prospects for publication in a scientific journal
- Opportunities for defining rubric
- Possibility of identifying suitable reviewers
- Load the corpus of texts.
- Cleanse the corpus by removing frequently used words that do not carry significant semantic value such as prepositions, numerals, pronouns, punctuation marks, etc.
- Apply vectorization techniques to the cleansed corpus (Bag-of-Words, TF-IDF, HashVectorizer).
- Perform clustering and classification analyses on the vectorized corpus.
- Regular Expressions
- Stop-word Dictionary
- Morphological Analyzer
- Vectorization Methods:
- Bag-of-Words
- TF-IDF
- HashVectorizer
- Machine Learning Classification Models:
- KNeighborsClassifier
- LogisticRegression
- MultinomialNB
- Clustering Algorithms:
- KMeans
- DBSCAN
- AgglomerativeClustering
- MiniBatchKMeans
- Deep Learning via Feed-Forward Neural Network (FFNN)
- Text-to-number transformation technique (doc2vec)
Despite severe class imbalances, the feed-forward neural network achieved nearly 100% accuracy.
-
Using the labeled corpus of manuscripts, it's possible to identify sections with near-perfect (~100%) accuracy when employing a feed-forward neural network. Even simpler classification algorithms like
KNeighborsClassifier
achieve similar levels of precision. -
Determination of publication prospects doesn't yet justify recommending these methods for use with incoming manuscripts. This might improve if more data becomes available.
-
Clustering methods yield approximately 50% accuracy, which isn't sufficient for either recognizing sections or predicting publication potential.
-
The doc2vec approach allows finding appropriate reviewers by selecting those who previously reviewed similar manuscripts.
Important
The texts related to radar and gas dynamics were sourced from the Scientific Journal of "Almaz - Antey" Air & Space Defense Corporation (covering publications from 2011–2024). The texts for scientometric analysis were provided specifically to test algorithm effectiveness and were drawn from the author's own published and unpublished works focused on journal publishing and promotion. Published materials are accessible online, while unpublished ones remain confidential.