日本語の特徴についての考察やメモ
日本語というものがbeeeyan.iconは好きだ。
言語化はできていない(このページを書くうちにできるかも)
日本語が母国語の者として、客観視が難しいところではあるが、気になった情報などを書き留めたい。
知りたいと思っていること
①「日本語」で扱うのに得意な領域があるか。
自分のツイート
ChatGPTとかAI使ってると、「言語の差」(日本語・英語)で扱う概念や処理に得意不得意があるのか、より気になってくるなぁぁ。
※※学習量は一定の前提
調べたことなど
※ ①に関連する
AI (LLM)を使う上では英語の方が優位であるとされていると思うbeeeyan.icon
英語の方が主語などの省略がなく曖昧ではない。
DeepreSearchなどで(GPT-4時代に)調査したもの(主語の話も出てきた) 語順の違い
人間の文処理における予測利用の度合いに影響します。英語のように動詞が早い段階で現れる言語では、文脈から次に来る語や構造を予測しながら処理しやすいのに対し、日本語のように動詞が文末に来る言語では文の終わりまで文の構造が確定せず、予測に頼りにくいとされています。
比較的、語順に自由度があり、それがAI(LLM)においてはデメリットになっている?beeeyan.icon
作業記憶負荷の差
語順や統語構造の違いは、一時的な情報記憶(ワーキングメモリ)の使い方にも影響します。左枝分かれ(SOV型)の言語話者は、文の初めの要素を保持する負荷が大きい一方で、右枝分かれ(SVO型)の言語話者は文の最後の要素を保持する傾向が強いことが分かっています
実際、Amiciら(2019)の研究では、4つの左枝分かれ言語(例:日本語など)と4つの右枝分かれ言語(例:英語など)の話者を対象に記憶課題を行った結果、左枝分かれ言語の話者は系列の初頭部分の記憶再生が優れる一方、系列末尾の再生は劣るという傾向が示されました
言語の語順が「記憶力」に影響するという話?beeeyan.icon
形態的特徴と言語処理
英語と日本語は形態論的にも大きく異なります。英語では単語と単語の間に空白があり、屈折変化も比較的少ないため、語彙単位の切り出し(トークン化)は容易です。一方、日本語は膠着語であり豊富な形態変化(助詞による格表示、動詞の活用など)がある上、文中に空白が存在しないため、まず文を形態素(意味を持つ最小単位)に区切る処理(形態素解析)が必要になります。例えば「国際化が進む」という文は、そのままでは単語境界が明示されていないため「国際/化/が/進む」のように切り分ける必要があります。形態素解析にはMeCabやJumanなどのツールが利用されますが、この前処理で誤りがあると後段の解析にも影響します。
英語と比べて、日本語はAI(LLM)する際に前処理が多くなる。処理が多いということは、その分性能にも影響を与える可能性がある。
ゼロ照応解析の必要性
NLPの面では、日本語の主語省略は機械翻訳やコア参照解析における大きな課題です。日本語から英語への機械翻訳では、省略された主語や目的語(いわゆるゼロ代名詞)を翻訳時に明示しなければなりません。そのためには省略された要素が指す実体(先行詞)を文脈から特定するゼロ照応解析が不可欠です。しかし、この推論は容易ではなく、従来の翻訳モデルでは誤訳の一因となってきました。
日本語を研究した海外の人の例
共感力がアップする?
ソース見つけられなかった.......
怪しい話かも、、。
似たような情報
謎サイト
「二重人格者の会話ー日本語の復権」という本を読むのがいいかもしれない。
仮説
仮説というか日本語が母国語の者の所感、とかになるかもしれない。
語順の自由度が高いので、「なんとなく書く」がしやすい言語な気がする。
ここが「好き」なポイントかもbeeeyan.icon
英語が母国語だと、言葉に毎度つまったりしないんだろうか。
少なくともbeeeyan.iconはつまりまくる(汗
文章の密度の高さ。
漢字・ひらがな・カタカナ、なんだったらアルファベットを交えて文章をつくる。
関連する話かもメモ)
x(旧ツイッター)が日本で流行っている?