Skip to content

denisbolshakoff/classification_of_texts_in_scientific_style

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 

Repository files navigation

This README is available in two languages
Russian version below 🇷🇺
English version follows 🇬🇧

Классификация, кластеризация корпуса текстов в научном стиле по радиолокации, газодинамике и наукометрии

Описание

Решаются задачи классификации и кластеризации корпуса текстов в научном стиле из трех областей науки: радиолокация, газодинамика, наукометрия. Классификацией решаются две задачи: по размеченому корпусу рукописей распознавание рубрики и распознавание перспектив публикации. Кластеризация решает те же самые задачи, только по неразмеченному корпусу рукописей.

Лицензия

License: CC BY-NC 4.0

Этот проект распространяется под лицензией CC BY-NC (Creative Commons Attribution-NonCommercial).

Цели проекта

На основании сходств и различий поступающего в научный журнал текста в научном стиле и существующего корпуса опубликованных в журнале статей и неопубликованных рукописей оценить:

  • возможность применения разных методов компьютерной лингвистики:
    • классификации;
    • кластеризации;
    • глубокого обучения;
    • doc2vec.
  • перспективы публикации в научном журнале;
  • возможность определения рубрики;
  • возможность определения рецензента.

Задачи проекта

  1. Загрузить корпус текстов.
  2. Провести очистку корпуса от наиболее часто используемых, но не несущих большого смысла стоп-слов, таких как: предлоги, числительные, местоимения, знаки препинания и т. д.
  3. Применить векторизацию к очищенному корпусу текстов (bag-of-words, TF-IDF, HashVectorizer).
  4. Применить методы кластеризации и классификации к векторизованному корпусу.

"Инструменты" проекта

  • регулярные выражения;
  • словарь стоп-слов;
  • морфологический анализатор;
  • векторизация методами:
    • bag-of-words;
    • TF-IDF;
    • HashVectorizer.
  • машинное обучение методами классификации:
    • KNeighborsClassifier;
    • LogisticRegression;
    • MultinomialNB;
  • методы кластеризации:
    • KMeans;
    • DBSCAN;
    • AgglomerativeClustering;
    • MiniBatchKMeans.
  • глубинное обучения на полносвязной нейронной сети (FFNN).
  • метод приведения текстов к числам doc2vec.

Интересный результат

Даже при сильно разбалансе классов, полносвязная нейронная сеть выдала результат, близкий в 100% точности.

Результаты проекта

  1. По размеченному корпусу рукописей можно определять рубрику практически со 100% точностью, использую полносвязную нейронную сеть, однако даже простой метод классификации KNeighborsClassifier даёт схожую точность.
  2. Определение перспективы публикации не позволяет рекомендовать использование методов в работе с поступающими в журнал рукописями, однако возможно дело в количестве данных. Их увеличение возможно изменит результаты к лучшему.
  3. Методы кластеризации дают точность на уровне 50%, что не может быть использовано для распознавания ни рубрики ни перспективы публикации рукописей.
  4. Метод doc2vec позволяет найти рецензентов. По наиболее похожей рукописи можно выбрать тех же рецензентов, что её рецензировали для исследуемой рукописи.

Important

Тексты по радиолокации и газодинамике были взяты из научно-технического журнала Вестник Концерна ВКО "Алмаз - Антей" (с 2011 по 2024 годы), а тексты корпуса по наукометрии приведены для проверки работоспособности исследуемых алгоритмов и были взяты из опубликованных и неопубликованных работ автора по теме издания и продвижения научных журналов. Опубликованные тексты можно найти в интернете, не опубликованные нет.

Classification, clustering of a corpus of texts in scientific style for radar, gas dynamics, and scientometrics

Description

The problems of classification and clustering of a corpus of texts in scientific style from three fields of science — radar, gas dynamics, and scientometrics — are addressed here. For classification, we solve two tasks: recognizing the rubric and determining the prospects of publication based on a labeled corpus of manuscripts. Clustering solves these same tasks but uses an unlabeled corpus of manuscripts.

License

License: CC BY-NC 4.0

Distributed under the CC BY-NC 4.0 CC BY-NC (Creative Commons Attribution-NonCommercial).

Goals of the Project

Based on the similarities and differences between incoming scientific-style texts submitted to a scientific journal and existing corpora of both published journal articles and unpublished manuscripts, this project aims to assess:

  • The feasibility of applying various computational linguistics techniques:
    • Classification
    • Clustering
    • Deep Learning
    • doc2vec
  • Prospects for publication in a scientific journal
  • Opportunities for defining rubric
  • Possibility of identifying suitable reviewers

Objectives of the Project

  1. Load the corpus of texts.
  2. Cleanse the corpus by removing frequently used words that do not carry significant semantic value such as prepositions, numerals, pronouns, punctuation marks, etc.
  3. Apply vectorization techniques to the cleansed corpus (Bag-of-Words, TF-IDF, HashVectorizer).
  4. Perform clustering and classification analyses on the vectorized corpus.

Tools Used

  • Regular Expressions
  • Stop-word Dictionary
  • Morphological Analyzer
  • Vectorization Methods:
    • Bag-of-Words
    • TF-IDF
    • HashVectorizer
  • Machine Learning Classification Models:
    • KNeighborsClassifier
    • LogisticRegression
    • MultinomialNB
  • Clustering Algorithms:
    • KMeans
    • DBSCAN
    • AgglomerativeClustering
    • MiniBatchKMeans
  • Deep Learning via Feed-Forward Neural Network (FFNN)
  • Text-to-number transformation technique (doc2vec)

Notable Result

Despite severe class imbalances, the feed-forward neural network achieved nearly 100% accuracy.

Key Findings

  1. Using the labeled corpus of manuscripts, it's possible to identify sections with near-perfect (~100%) accuracy when employing a feed-forward neural network. Even simpler classification algorithms like KNeighborsClassifier achieve similar levels of precision.

  2. Determination of publication prospects doesn't yet justify recommending these methods for use with incoming manuscripts. This might improve if more data becomes available.

  3. Clustering methods yield approximately 50% accuracy, which isn't sufficient for either recognizing sections or predicting publication potential.

  4. The doc2vec approach allows finding appropriate reviewers by selecting those who previously reviewed similar manuscripts.

Important

The texts related to radar and gas dynamics were sourced from the Scientific Journal of "Almaz - Antey" Air & Space Defense Corporation (covering publications from 2011–2024). The texts for scientometric analysis were provided specifically to test algorithm effectiveness and were drawn from the author's own published and unpublished works focused on journal publishing and promotion. Published materials are accessible online, while unpublished ones remain confidential.