- 본 연구는 2023-2학기 연세대학교 통계데이터사이언스학과 시공간자료분석 수업의 개인 프로젝트를 발전시킨 것입니다.
- 본 연구는 2023-2학기 연세대학교 국어국문학과(학부) 국어방언학 수업 내용 중 일부에 대한 독자적인 분석 결과입니다.
- 구체적으로는, 공간 군집화(정확히는 지역화) 방법론을 국어학에 접목해 한국어 대방언권을 정량적으로 구획하는 연구입니다.
- 한국어 대방언권 구획은 일제강점기 무렵 최초로 정립된 이후, 그 형태가 거의 그대로 이어져 내려오고 있다.
- 국어학계에서는 등어선(isogloss)을 이용한 방언권 구획 관련 연구가 지속적으로 진행되고 있다.
- 하지만 등어선을 이용한 방법론은 여러 한계를 갖는다.
- 등어선을 언제, 어디를 기준으로 그어야 하는지에 대한 기준이 불분명하다.
- 대체로 수작업으로 진행되기 때문에 연구가 좁은 지역 내의 방언권을 구획하는 데에 국한된다.
- 하지만 등어선을 이용한 방법론은 여러 한계를 갖는다.
- 본 연구에서는 이러한 한계점을 극복하기 위해 공간 군집화(Spatial Clsutering)의 일종인 지역화(Regionalization) 기법을 활용해 한국어 대방언권 구획을 정량적으로 확인하고자 한다.
- 본 연구는 아래와 같은 기여점을 갖는다.
- 한국어 방언 구획론 관련 연구에 공간 군집화 방법론을 접목한 최초의 사례이다.
- 기존 연구에 필수불가결적으로 포함되었던 자의적인 기준의 개입 없이 방언권 구획을 시도한다.
- word2vec으로 대표되는 단어 임베딩(Word Embedding) 방법론을 활용한 새로운 단어 비유사도(Dissimilarity) 지표를 고안한다.
- 그래프(Graph)란, 간선(Edge)으로 연결된 정점(Vertex, Node)의 집합이다.
- 일반적으로 분석 대상이 되는 개체 하나하나를 정점으로 표현하고, 개체 간의 연결 관계를 간선으로 표시한다.
- 그래프를
$G$ , 정점의 집합을$V$ , 간선의 집합을$E$ 라 할 때,$G=(V,E)$ 로 표기한다.
- 본 연구에서는 대한민국 전체 지도를 하나의 그래프로 표현하였다.
- 이때 정점은 행정 구역에 대응되며, 서로 인접한 행정 구역 사이에는 간선이 있는 것으로 간주한다.
- 그래프 데이터 구조는 공간적 의존성이 있는 데이터를 표시하기에 용이하다.
- 군집화(Clustering)란, 분석 대상을 특정 개수의 군집으로 묶는 작업을 통칭한다.
- 이때 공간 데이터를 대상으로 하는 군집화를 공간적 군집화 (Spatial Clustering)라고 한다.
- 지역화(Regionalization)은 군집화의 특수한 경우로, 한 군집에 해당되는 모든 개체가 공간적으로 연결되어 있어야 한다.
- 일반적인 군집화에서는 이러한 제약사항이 적용되지 않는다.
- 한 방언 구획에 속한 행정구역은 모두 연결되어 있는 것이 상식적이므로 본 연구에서는 지역화를 사용하였다.
-
$\texttt{skater}$ stands for Spatial 'K'luster Analysis by Tree Edge Removal.- "트리의 간선 제거를 통한 공간적 군집 분석"
- AssunÇão, R. M. et al. (2006)에서 제안된 알고리즘.
-
$\texttt{skater}$ 알고리즘은 아래와 같은 순서로 작동된다.- 전체 데이터를 표현하는 그래프 하나를 입력으로 받는다.
- 그래프 내의 모든 간선에 가중치를 부여한다. 이때 가중치는 연구자의 선호에 따라 자유롭게 선택할 수 있다.
- ii.에서 부여한 가중치에 의거해 전체 그래프를 최소 생성 트리 (Minimum Spanning Tree, MST)로 가공한다.
- iii.에서 생성된 최소 생성 트리에서 간선 하나를 제거한다. 이때 트리는 Acyclic하므로 간선 하나를 제거하면 반드시 2개의 sub-tree가 만들어진다.
이때 Intracluster square deviation(
$\text{SSD} = \sum_{j} \sum_{i} (x_{ij} - \bar{x_j})^2$ )의 총합이 가장 작아지는 방향으로 제거할 간선을 결정한다.- 단, 본 연구에서는 독자적인 단어 비유사도 (Word Dissimilarity)를 가공한 지표를 새롭게 정의해 기존의 지표를 대체하였다.
- sub-tree 각각을 군집으로 볼 때, 원하는 개수의 군집이 만들어질 때까지 iv.를 반복한다.