Skip to content

KATOKanji-0131/lajar-dataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

43 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

License: CC BY 4.0 License: MIT

日琉諸語文法データセット(LAJaR Dataset)について

日琉諸語文法データプロジェクト LAJaR (Linguistic Atlas of Japanese and Ryukyuan) では、日琉諸語の各言語・方言がどのような文法的特徴を持っているかを、既存の文献やフィールドデータから抽出し、構造化したデータを公開します。

このリポジトリは、「日琉諸語文法データセット」(LAJaR Dataset)を提供します。基本的なデータ構造はWALS (The World Atlas of Language Structures Online)のものを踏襲していますが、LAJaR独自の項目も含んでいます。

また日琉諸語文法データセット(LAJaR Dataset) デモサイトでは、「日琉諸語文法データセット」を可視化できます。

ライセンス

  • データ(例: JSON, CSVファイル): Creative Commons Attribution 4.0 International (CC BY 4.0)
    • ご自由に使用・改変・再配布いただけますが、出典の明記をお願いします。
  • ソースコード(スクリプトなどが含まれる場合): MIT License
    • MIT ライセンスでは、著作権表示を残す限り、自由に使用・改変・再配布が可能ですが、利用による影響については作者は責任を負いません。

引用方法

このデータセットを利用する場合は、以下の情報を引用してください:

@misc{lajar2025,
  author       = {加藤, 幹治 and 宮川, 創 and 北本, 朝展 and 中川, 奈津子 and 田窪, 行則 and 高田, 智和},
  title        = {LAJaR (日琉諸語文法データ) データセット},
  year         = {2025},
  howpublished = {\url{https://github.com/yourusername/lajar-dataset}},
  note         = {CC BY 4.0},
  URL          = {https://github.com/KATOKanji-0131/lajar-dataset}
}
@misc{lajar2025,
  author       = {Kato, Kanji and Miyagawa, So and Kitamoto, Asanobu and Nakagawa, Natsuko and Takubo, Yukinori and Takada, Tomokazu},
  title        = {LAJaR (Linguistic Atlas of Japanese and Ryukyuan) Dataset},
  year         = {2025},
  howpublished = {\url{https://github.com/yourusername/lajar-dataset}},
  note         = {CC BY 4.0},
  URL          = {https://github.com/KATOKanji-0131/lajar-dataset}
}

各ファイルの説明

/lajar_demo

LAJaR Dataset をブラウザ上の地図で確認できます。 デモサイトは、https://lajar.netlify.app/ で公開しています。

lajar_data.json

デモサイト(lajar_demo)で使用される地域言語データを含むJSON形式のデータセットです。
各地点ごとに、文法特徴に関する情報をまとめています。

構造概要

  • dropdownContents: 表示可能なパラメータ(文法現象や言語特徴)の一覧です。parameter.csvのIDと対応しています。
    デモサイト上では、このリストがセレクトメニューに使用されます。

  • locations: 各言語・方言のエントリ。以下の情報を含みます:

    • name: 方言の名称
    • contributor: 担当者名のリスト
    • latitude, longitude: 地点の緯度・経度
    • info: dropdownContents に対応する各項目の値と出典情報のリスト
      • value: 数値・分類名などのデータ
      • source: 情報の出典(文献名など)。未入力の場合は "no data" と記載されます。

{
  "name": "奄美語徳之島面縄方言",
  "contributor": ["加藤幹治"],
  "latitude": 27.67,
  "longitude": 128.96,
  "info": [
    { "value": 17, "source": "Kato(2022)" },
    { "value": "SOV", "source": "no data" },
    ...
  ]
}

/data

value.csv

データ構造

1行に全ての地点の1つの文法特徴が、1列に1地点の全ての文法特徴が収められています。1列目から4列目はラベルで、実際の値は5列目以降です。

  • pk: 内部ID
  • parameter_id: parameter.csvidと対応。
  • description-en: parameter.csvdescription-enと対応。
  • description-jp: parameter.csvdescription-jpと対応。

parameter.csv

parameter.csvは、文法特徴のパラメータ覧を示しています。

  • pk: 内部ID
  • id: パラメータID。WALSのものをそのまま使っていますが、"-J" とついている項目はLAJaR独自の項目です。
  • description-en: 英語での説明
  • description-jp: 日本語での説明

contributor.csv

contributor.csvは、収録されているデータを提供または分析した担当者を示しています。

各フィールドの記述

  • pk: 内部ID
  • name-jp: 名前(日本語)
  • name-en: 名前(英語)
  • url: Researchmap等の外部リンク
  • contact: 連絡先

language.csv

language.csvは、収録されている言語の概要を示しています。

⚠️言語名ラベル、緯度、経度、エリア区分はデータ処理のために便宜的に入力したもので、当データセットが学術的な正確性を保証するものではありません。

各フィールドの記述

  • pk: 内部ID
  • iso: ISOコード
  • glottolog: Glottologコード
  • name: 言語名ラベル
  • latitude: 緯度
  • longitude: 経度
  • branch: 語派(日本/琉球)
  • group: 語群(例: 北琉球, 東日本)
  • complex: 語群より小さい単位でのまとまり(例:肥筑方言)
  • language: 言語
  • prefecture: 都道府県
  • largearea: 県の中の地方、群島、群島をなさない島のレベル(言語によって恣意的)
  • midarea: 群島の中の島、合併前の町村程度のレベル(言語によって恣意的)
  • smallarea: 字、集落のレベル

source.bib

文法特徴を参照した文献の一覧です。BibTeX形式で書かれています。

lajar_template.xlsx

データの追加をしてくださるcontributorのためのテンプレートです。 データ追加にご協力いただける方は、地点名、緯度経度、データ、データの出典を記入して、以下の連絡先までご連絡ください。

連絡先

ご質問・バグ報告・共同研究・データ追加のご相談などは以下までご連絡ください:

助成・資金

本データセットは以下の助成を受けて作成されました:

データセット構築

フィールドデータ収集

参照文献

Dryer, Matthew S. & Haspelmath, Martin (eds.) 2013. WALS Online (v2020.4) [Data set]. Zenodo. https://doi.org/10.5281/zenodo.13950591 (https://wals.info, Accessed on 2025-03-23.)

About

LAJaR: Language Atlas of Japanese and Ryukyuan

Resources

License

Stars

Watchers

Forks

Packages

No packages published