Stockmark-13b-instruct

今回、Stockmark-13bに対して追加の学習を行い、ユーザーの指示に従うように訓練したStockmark-13b-instructを公開します。

十分に訓練された事前学習モデルは流暢な文章を生成したり、fine tuningを行うことで様々なタスクに特化することができる一方で、そのままではユーザーの意図に沿った応答を行うことはできません。

LLMがユーザーの指示に従った応答を行うようにするためには、さらに追加の学習が必要です。このために広く行われているのがinstruction tuningと呼ばれる学習で、これは多様な指示とそれに対する望ましい応答からなるデータセットを用いて学習を行うものです。

当社は理化学研究所の共同研究プロジェクトである「LLMのための日本語インストラクションデータ作成プロジェクト」に参加しており、このプロジェクトで作成されたインストラクションデータを用いて、Stockmark-13b-instructの開発を行いました。

2つの評価

データ数としては少ないながらも、「LLMのための日本語インストラクションデータ作成プロジェクト」のデータセットで学習されたモデルの正答率が最も高い結果となりました。

JGLUE

lm-evaluation-harnessで「プロンプトのテンプレートはJCommonSenseQAでは0.3のバージョンを、それ以外では0.2のバージョン」

どのデータセットを用いたとしても、Instruction tuningを行うことで事前学習のみを行なったベースのモデルに比べるとJGLUEのスコアが上がり、最もスコアが高かったのは「LLMのための日本語インストラクションデータ作成プロジェクト」のデータセットである

このデータセットで現時点で利用可能なデータは他のデータセットと比べるとまだ少ないにも関わらず、最も高い性能を示したことは、最終的なモデルの性能にはデータの質が重要であることが示唆されます。