Stockmark-13b-instruct
今回、Stockmark-13bに対して追加の学習を行い、ユーザーの指示に従うように訓練したStockmark-13b-instructを公開します。 十分に訓練された事前学習モデルは流暢な文章を生成したり、fine tuningを行うことで様々なタスクに特化することができる一方で、そのままではユーザーの意図に沿った応答を行うことはできません。
LLMがユーザーの指示に従った応答を行うようにするためには、さらに追加の学習が必要です。 このために広く行われているのがinstruction tuningと呼ばれる学習で、これは多様な指示とそれに対する望ましい応答からなるデータセットを用いて学習を行うものです。
2つの評価
データ数としては少ないながらも、「LLMのための日本語インストラクションデータ作成プロジェクト」のデータセットで学習されたモデルの正答率が最も高い結果となりました。
JGLUE
lm-evaluation-harnessで「プロンプトのテンプレートはJCommonSenseQAでは0.3のバージョンを、それ以外では0.2のバージョン」
どのデータセットを用いたとしても、Instruction tuningを行うことで事前学習のみを行なったベースのモデルに比べるとJGLUEのスコアが上がり、最もスコアが高かったのは「LLMのための日本語インストラクションデータ作成プロジェクト」のデータセットである
このデータセットで現時点で利用可能なデータは他のデータセットと比べるとまだ少ないにも関わらず、最も高い性能を示したことは、最終的なモデルの性能にはデータの質が重要であることが示唆されます。