HumanEval

プログラム合成の能力を評価するためのベンチマーク

Pythonのプログラミング問題を解くことができるかどうかを測定する

HumanEvalはOpenAIが提案したもので、164個のPythonのプログラミング問題から構成されている。

各問題は、関数のシグネチャ、ドキュメンテーション、本体、および複数のユニットテストからなります。言語モデルは、関数のシグネチャとドキュメンテーションから、関数の本体を生成することが求められる。

そして、生成されたコードがユニットテストに合格するかどうかで性能が評価されます。

HumanEvalは、プログラム合成の能力を評価するためのベンチマークタスクとして優れているが、人間のプログラミングスタイルや癖に影響されている可能性がある。

例えば、変数名やインデントなど

評価方法

https://scrapbox.io/files/65bc79c67976c800244e722d.png