言い回しと知識
今のGPT-4は、表層的な言い回しとしては日本語で会話できていても、日本人が普通に持っているような知識を持っていないケースがあります。
なので言い回しではなく知識の獲得ができているかどうかのテストが必要です。 日本語基盤LLMが日本人にとって有益なものになるためには、日本人にとって有益な知識を獲得することが必要だからです。 今のGPT-4だとこうなります
Model: GPT-4
荘園って何?
「荘園」とは、中世ヨーロッパにおける大規模な農業経済体制の中心となった地方の経済単位です。主にフェウダリズム(封建制)時代の西欧で発展し、荘園主(多くは貴族や教会)が支配し、農民や奴隷が働きました。...
表層的な言い回しとしては流暢に日本語で会話できていますが、「荘園」という言葉の意味が「日本の荘園」には結びついていません。「荘園」は「manor」と近い意味の単語だ、と対応づいているわけです。
https://gyazo.com/38c15e6817832acd27925edd5003f4af
(1): 日本人はシンボルS1が意味F1に対応づくことを期待する
(2): しかし表層的にS1とS2が対応づいていてシンボルS1が意味F2だと解釈されてしまう