日琉諸語文法データプロジェクト LAJaR (Linguistic Atlas of Japanese and Ryukyuan) では、日琉諸語の各言語・方言がどのような文法的特徴を持っているかを、既存の文献やフィールドデータから抽出し、構造化したデータを公開します。
このリポジトリは、「日琉諸語文法データセット」(LAJaR Dataset)を提供します。基本的なデータ構造はWALS (The World Atlas of Language Structures Online)のものを踏襲していますが、LAJaR独自の項目も含んでいます。
また日琉諸語文法データセット(LAJaR Dataset) デモサイトでは、「日琉諸語文法データセット」を可視化できます。
- データ(例: JSON, CSVファイル): Creative Commons Attribution 4.0 International (CC BY 4.0)
- ご自由に使用・改変・再配布いただけますが、出典の明記をお願いします。
- ソースコード(スクリプトなどが含まれる場合): MIT License
- MIT ライセンスでは、著作権表示を残す限り、自由に使用・改変・再配布が可能ですが、利用による影響については作者は責任を負いません。
このデータセットを利用する場合は、以下の情報を引用してください:
- 加藤幹治, 宮川創, 北本朝展, 中川奈津子, 田窪行則, 高田智和(2025-)LAJaR (日琉諸語文法データ) データセット. https://github.com/KATOKanji-0131/lajar-dataset.
@misc{lajar2025,
author = {加藤, 幹治 and 宮川, 創 and 北本, 朝展 and 中川, 奈津子 and 田窪, 行則 and 高田, 智和},
title = {LAJaR (日琉諸語文法データ) データセット},
year = {2025},
howpublished = {\url{https://github.com/yourusername/lajar-dataset}},
note = {CC BY 4.0},
URL = {https://github.com/KATOKanji-0131/lajar-dataset}
}
- Kato, Kanji, So Miyagawa, Asanobu Kitamoto, Natsuko Nakagawa, Yukinori Takubo, and Tomokazu Takada (2025-) LAJaR: Linguistic Atlas of Japanese and Ryukyuan. https://github.com/KATOKanji-0131/lajar-dataset.
@misc{lajar2025,
author = {Kato, Kanji and Miyagawa, So and Kitamoto, Asanobu and Nakagawa, Natsuko and Takubo, Yukinori and Takada, Tomokazu},
title = {LAJaR (Linguistic Atlas of Japanese and Ryukyuan) Dataset},
year = {2025},
howpublished = {\url{https://github.com/yourusername/lajar-dataset}},
note = {CC BY 4.0},
URL = {https://github.com/KATOKanji-0131/lajar-dataset}
}
LAJaR Dataset をブラウザ上の地図で確認できます。 デモサイトは、https://lajar.netlify.app/ で公開しています。
デモサイト(lajar_demo
)で使用される地域言語データを含むJSON形式のデータセットです。
各地点ごとに、文法特徴に関する情報をまとめています。
-
dropdownContents
: 表示可能なパラメータ(文法現象や言語特徴)の一覧です。parameter.csv
のIDと対応しています。
デモサイト上では、このリストがセレクトメニューに使用されます。 -
locations
: 各言語・方言のエントリ。以下の情報を含みます:name
: 方言の名称contributor
: 担当者名のリストlatitude
,longitude
: 地点の緯度・経度info
:dropdownContents
に対応する各項目の値と出典情報のリストvalue
: 数値・分類名などのデータsource
: 情報の出典(文献名など)。未入力の場合は "no data" と記載されます。
{
"name": "奄美語徳之島面縄方言",
"contributor": ["加藤幹治"],
"latitude": 27.67,
"longitude": 128.96,
"info": [
{ "value": 17, "source": "Kato(2022)" },
{ "value": "SOV", "source": "no data" },
...
]
}
1行に全ての地点の1つの文法特徴が、1列に1地点の全ての文法特徴が収められています。1列目から4列目はラベルで、実際の値は5列目以降です。
pk
: 内部IDparameter_id
:parameter.csv
のid
と対応。description-en
:parameter.csv
のdescription-en
と対応。description-jp
:parameter.csv
のdescription-jp
と対応。
parameter.csv
は、文法特徴のパラメータ覧を示しています。
pk
: 内部IDid
: パラメータID。WALSのものをそのまま使っていますが、"-J" とついている項目はLAJaR独自の項目です。description-en
: 英語での説明description-jp
: 日本語での説明
contributor.csv
は、収録されているデータを提供または分析した担当者を示しています。
pk
: 内部IDname-jp
: 名前(日本語)name-en
: 名前(英語)url
: Researchmap等の外部リンクcontact
: 連絡先
language.csv
は、収録されている言語の概要を示しています。
pk
: 内部IDiso
: ISOコードglottolog
: Glottologコードname
: 言語名ラベルlatitude
: 緯度longitude
: 経度branch
: 語派(日本/琉球)group
: 語群(例: 北琉球, 東日本)complex
: 語群より小さい単位でのまとまり(例:肥筑方言)language
: 言語prefecture
: 都道府県largearea
: 県の中の地方、群島、群島をなさない島のレベル(言語によって恣意的)midarea
: 群島の中の島、合併前の町村程度のレベル(言語によって恣意的)smallarea
: 字、集落のレベル
文法特徴を参照した文献の一覧です。BibTeX形式で書かれています。
データの追加をしてくださるcontributorのためのテンプレートです。 データ追加にご協力いただける方は、地点名、緯度経度、データ、データの出典を記入して、以下の連絡先までご連絡ください。
ご質問・バグ報告・共同研究・データ追加のご相談などは以下までご連絡ください:
本データセットは以下の助成を受けて作成されました:
- ROIS-DS JOINT 048RP2022「日琉諸語の言語類型アトラスLAJaRの開発と分析」(代表: 宮川創)
- ROIS-DS JOINT 035RP2023「日琉諸語の言語類型アトラスLAJaRの開発と分析」(代表: 宮川創)
- ROIS-DS JOINT 042RP2024「日琉諸語の言語類型アトラスLAJaRの開発と分析」(代表: 宮川創)
- JSPS 科研費 JP19J20370 北琉球徳之島伊仙方言の記述文法書作成(代表: 加藤幹治)
- JSPS 科研費 JP22KJ2426 日本語諸方言における心情述語文の格標示に関する基礎的研究:述語の品詞に着目して(代表: 松岡葵)
- JSPS 科研費 JP23KJ1712「判断文・現象文」類型における特殊構文の再検討:方言バリエーションに着目して(代表: 廣澤尚之)
- JSPS 科研費 JP23K18667「未記述の危機言語の地点集中的記録保存:沖縄語糸満方言の記述文法書作成」(代表: 加藤幹治)
Dryer, Matthew S. & Haspelmath, Martin (eds.) 2013. WALS Online (v2020.4) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.13950591 (https://wals.info, Accessed on 2025-03-23.)