Skip to content

Kyung-hanKim/Korean_Dialectal_Division

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 

Repository files navigation

Korean Dialectal Division with Graph-based Regionalization using $\texttt{skater}$ Algorithm

  • 본 연구는 2023-2학기 연세대학교 통계데이터사이언스학과 시공간자료분석 수업의 개인 프로젝트를 발전시킨 것입니다.
  • 본 연구는 2023-2학기 연세대학교 국어국문학과(학부) 국어방언학 수업 내용 중 일부에 대한 독자적인 분석 결과입니다.
  • 구체적으로는, 공간 군집화(정확히는 지역화) 방법론을 국어학에 접목해 한국어 대방언권을 정량적으로 구획하는 연구입니다.

1. Introduction

  • 한국어 대방언권 구획은 일제강점기 무렵 최초로 정립된 이후, 그 형태가 거의 그대로 이어져 내려오고 있다.
  • 국어학계에서는 등어선(isogloss)을 이용한 방언권 구획 관련 연구가 지속적으로 진행되고 있다.
    • 하지만 등어선을 이용한 방법론은 여러 한계를 갖는다.
      • 등어선을 언제, 어디를 기준으로 그어야 하는지에 대한 기준이 불분명하다.
      • 대체로 수작업으로 진행되기 때문에 연구가 좁은 지역 내의 방언권을 구획하는 데에 국한된다.
  • 본 연구에서는 이러한 한계점을 극복하기 위해 공간 군집화(Spatial Clsutering)의 일종인 지역화(Regionalization) 기법을 활용해 한국어 대방언권 구획을 정량적으로 확인하고자 한다.
  • 본 연구는 아래와 같은 기여점을 갖는다.
    • 한국어 방언 구획론 관련 연구에 공간 군집화 방법론을 접목한 최초의 사례이다.
    • 기존 연구에 필수불가결적으로 포함되었던 자의적인 기준의 개입 없이 방언권 구획을 시도한다.
    • word2vec으로 대표되는 단어 임베딩(Word Embedding) 방법론을 활용한 새로운 단어 비유사도(Dissimilarity) 지표를 고안한다.

2. Graph

  • 그래프(Graph)란, 간선(Edge)으로 연결된 정점(Vertex, Node)의 집합이다.
    • 일반적으로 분석 대상이 되는 개체 하나하나를 정점으로 표현하고, 개체 간의 연결 관계를 간선으로 표시한다.
    • 그래프를 $G$, 정점의 집합을 $V$, 간선의 집합을 $E$라 할 때, $G=(V,E)$ 로 표기한다.
  • 본 연구에서는 대한민국 전체 지도를 하나의 그래프로 표현하였다.
    • 이때 정점은 행정 구역에 대응되며, 서로 인접한 행정 구역 사이에는 간선이 있는 것으로 간주한다.
  • 그래프 데이터 구조는 공간적 의존성이 있는 데이터를 표시하기에 용이하다.

3. Clustering and Regionalization

  • 군집화(Clustering)란, 분석 대상을 특정 개수의 군집으로 묶는 작업을 통칭한다.
    • 이때 공간 데이터를 대상으로 하는 군집화를 공간적 군집화 (Spatial Clustering)라고 한다.
  • 지역화(Regionalization)은 군집화의 특수한 경우로, 한 군집에 해당되는 모든 개체가 공간적으로 연결되어 있어야 한다.
    • 일반적인 군집화에서는 이러한 제약사항이 적용되지 않는다.
    • 한 방언 구획에 속한 행정구역은 모두 연결되어 있는 것이 상식적이므로 본 연구에서는 지역화를 사용하였다.

3-1. $\texttt{skater}$ Algorithm

  • $\texttt{skater}$ stands for Spatial 'K'luster Analysis by Tree Edge Removal.
  • $\texttt{skater}$ 알고리즘은 아래와 같은 순서로 작동된다.
    1. 전체 데이터를 표현하는 그래프 하나를 입력으로 받는다.
    2. 그래프 내의 모든 간선에 가중치를 부여한다. 이때 가중치는 연구자의 선호에 따라 자유롭게 선택할 수 있다.
    3. ii.에서 부여한 가중치에 의거해 전체 그래프를 최소 생성 트리 (Minimum Spanning Tree, MST)로 가공한다.
    4. iii.에서 생성된 최소 생성 트리에서 간선 하나를 제거한다. 이때 트리는 Acyclic하므로 간선 하나를 제거하면 반드시 2개의 sub-tree가 만들어진다. 이때 Intracluster square deviation($\text{SSD} = \sum_{j} \sum_{i} (x_{ij} - \bar{x_j})^2$)의 총합이 가장 작아지는 방향으로 제거할 간선을 결정한다.
      • 단, 본 연구에서는 독자적인 단어 비유사도 (Word Dissimilarity)를 가공한 지표를 새롭게 정의해 기존의 지표를 대체하였다.
    5. sub-tree 각각을 군집으로 볼 때, 원하는 개수의 군집이 만들어질 때까지 iv.를 반복한다.

About

[2023-2] Graph-based Clustering(Regionalization)을 활용한 한국어 대방언권 구획 연구

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published