言語間距離
Claude 3.5 Sonnet.icon言語間距離は、言語学において2つの言語がどの程度異なるかを測る概念 定義
2つの言語の類似性または差異の度合いを定量化したもの。値が小さいほど言語が類似していることを示す。
主な測定方法
語彙的距離:基礎語彙の類似度を比較(例:Levenshtein距離)
音韻的距離:音素体系の違いを比較
文法的距離:文法構造の違いを数値化
系統的距離:言語系統樹における分岐の深さを利用
代表的な研究や指標
Automated Similarity Judgment Program (ASJP):基礎語彙を用いた距離測定
WALS(World Atlas of Language Structures)の特徴に基づく距離
Ethnologue 言語分類に基づく系統的距離
世界の言語6912について話者数、分布、方言、系統、聖書の翻訳の有無などを掲載している。
基素.icon例えば日本語から離れた言語を知りたいと言うときに使える手法はどれ
Claude 3.5 Sonnet.icon
語彙的距離(ASJP手法)
基礎語彙100語(または40語)のリストを使用
各単語のLevenshtein距離を計算し、平均を取る
日本語との距離が大きい言語を特定
音韻的距離
PHOIBLE等のデータベースを使用し、音素目録を比較
共通音素の少ない言語を「遠い」と判断
文法的特徴の比較(WALS利用)
World Atlas of Language Structures (WALS)の特徴を利用
日本語と異なる文法特徴を多く持つ言語を探す
例:語順、格標示、声調の有無など
系統的距離
Glottologなどの言語系統分類を利用
日本語(日琉語族)から系統的に遠い語族の言語を特定
タイポロジカルな特徴の総合比較
語順、形態的類型(膠着語・屈折語・孤立語)、音韻体系など複数の特徴を総合的に比較
日本語と最も異なる特徴を持つ言語を探す
Quantifying syntax similarity with a polynomial representation of dependency trees
inghao Feng
Liu Rui
2022
https://gyazo.com/11c9984aceb73a7351cc4729507d930c
濃い色ほど距離が大きい(つまり、言語間の差異が大きい)
日本語あまりどれにも似てない...基素.icon
概要
この研究は、依存文法の木構造を多項式で表現し、その多項式間の距離を計算することで、文の構文的類似性を定量化する新しい手法を提案しています。
この手法を並列依存構造コーパス(PUD)の1000文に適用し、20言語間の構文的類似性を分析しています。
先行研究と比べてどこがすごい:
依存構造の全情報を考慮した包括的な表現方法を提案
大規模な多言語データに適用し、言語間の構文的類似性を定量的に分析
系統関係や地理的関係だけでなく、文化的要因も考慮した分析を実施
技術や手法のキモはどこ:
木構造を区別する多項式表現を依存文法木に拡張
多項式間の距離を定義し、文や言語間の構文的類似度を計算
ランダムフォレストやMultidimensional Scaling(MDS)などの手法を組み合わせて分析
どうやって有効だと検証した:
系統的に近い言語や地理的に近い言語が構文的にも類似していることを確認
言語系統樹と概ね一致する言語のクラスタリング結果を得た
個別の言語ペアの類似度を詳細に分析し、既知の言語学的知見と整合的な結果を得た
議論はある:
データの偏り(ヨーロッパ言語が多い)の影響
構文的類似性に対する系統的要因と地理的・文化的要因の相対的重要性
提案手法の他の言語学的タスクへの応用可能性
次に読むべき論文:
依存文法の歴史的発展に関する論文 (Imrényi & Mazziotta, 2020)
言語間の類似性を定量化する他の手法に関する論文 (例: Vulić et al., 2020)
言語系統樹の構築に関する論文 (例: Gray & Jordan, 2000)
https://gyazo.com/77f5f427c1e6bd6939a1a11bf3dea8ea
Fig 5. Neighbor-Net of confusion of the languages in the GLG
Great Language Game (GLG) のプレイヤーが似ていると回答から計算したもの
各言語が図の端に配置されており、言語間の混同の程度が線の長さと配置で表現されています。
線で近く結ばれている言語ほど、プレイヤーに混同されやすいことを示しています。
言語は大まかに地理的・系統的なグループに分かれています
例えば、ヨーロッパ言語、アジア言語、オセアニア言語などのクラスターが見られます。
フランス語やドイツ語など、他の言語と長い線で結ばれている言語は、混同されにくく、正確に識別されやすいことを示しています。 スラヴ語族の言語など、密接に結びついた言語グループは、お互いに混同されやすいことがわかります。 言語間の複雑な関係性も表現されており、例えばある言語が複数の異なる言語グループと混同されるパターンも示されています。
この図は、言語の混同パターンが単純な系統関係だけでなく、地理的近接性や文化的要因なども反映していることを視覚的に表現しています。
Claude 3.5 Sonnet.icon言語混同に基づく距離を表している
完全な言語間距離と呼ぶのは適切ではありません:
知覚に基づく距離
この手法は、言語学的特徴の客観的な比較ではなく、プレイヤーの主観的な知覚と判断に基づいています。
非対称性
言語AがBと間違えられる確率と、BがAと間違えられる確率は必ずしも同じではありません。これは典型的な距離の概念とは異なります。
外部要因の影響
プレイヤーの文化的背景、言語の知名度、音声サンプルの品質など、言語自体の特徴以外の要因が結果に影響を与えている可能性があります。
限定的なサンプル
短い音声サンプルのみに基づいており、言語の全体的な特徴を反映していない可能性があります。
しかし、この手法は以下の点で価値があります:
知覚的距離の測定
言語間の客観的な距離ではなく、一般の人々がどのように言語の類似性を知覚しているかを示しています。
大規模データの活用
多数のプレイヤーからの膨大なデータを利用しており、集合的な知覚を反映しています。
文化的要因の包含
言語学的特徴だけでなく、文化的要因や一般的な認識も含めた「距離」を示しています。
概要
78言語、約1500万件の推測データを分析し、言語の混同や正確な識別に影響を与える要因を検討しています。
先行研究と比べてどこがすごい
グローバルな規模で多数の言語と参加者を対象にしている点
言語識別の正確さと混同に影響する多様な要因(言語学的・非言語学的)を包括的に分析している点
オンラインゲームを利用して大規模なデータを収集した新しいアプローチ
技術や手法のキモはどこ
Neighbor-Net、決定木、ランダムフォレストなど複数の分析手法を組み合わせて使用
言語間の距離を測る様々な指標(地理的、系統的、音韻的、語彙的)を活用
地理的距離: 言語の主要使用地域間の地理的な距離
系統的距離: Glottologの言語系統樹における共有ノード数の逆数
音韻的距離: PHOIBLE データベースに基づく音素目録の類似度
語彙的距離: Automated Similarity Judgement Program (ASJP) データベースを使用した基礎語彙の類似度
これらの指標を組み合わせて、言語間の総合的な距離や類似性を評価しています。
言語の「グローバルな知名度」を測る新しい指標(Google N-gramデータなど)の導入
どうやって有効だと検証した
言語混同のパターンが地理的・系統的関係と一致することを示した
言語識別の正確さを予測する要因を特定し、その相対的重要性を定量化
異なる国の参加者間で判断の類似性を比較
議論はある
データの偏り(欧米の言語や参加者が多い)の影響
文化的知識と言語学的特徴のどちらがより重要かについての議論
言語識別における音声的特徴の役割についての考察
次に読むべき論文は
知覚方言学に関する研究 (Preston 1999など)
言語の相互理解性に関する研究 (Gooskens et al. 2010など)
言語距離の測定に関する研究 (Wichmann et al. 2010など)