LLM構築におけるインストラクションの効果と人間とGPT-4による評価で観察されたもの
#JLR2024 #ichikara-instruction
関連
ichikara-instruction LLMのための日本語インストラクションデータの作成
LLMの出力結果に対する人間による評価分析とGPT-4による自動評価との比較分析
GPT-3.5 vs rinna/youri-7B(TODO 後で見直す)
hououにichikara instructionを入れる
大規模言語モデル houou (鳳凰): 理研 ichikara-instruction データセットを用いた学習と評価 表4
GPT-4評価と人による評価
GPT-4は具体性を評価
人は具体例部分のハルシネーションを検出(10分調べて)
インストラクションが支配
情報量
正確性
具体例を入れたところ、ハルシネーション
(関連性)
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arenaで人間と同等と報告しているが、鵜呑みにしてはならない(Appendix D.3)