EAPrompt論文
論文情報
タイトル:Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models: A Case Study on ChatGPT
発行日:2023年3月
著者:Qingyu Lu, Baopu Qiu, Liang Ding, Kanjian Zhang, Tom Kocmi, Dacheng Tao
所属:Southeast University
論文を読んで感じたこと
Few Shotめんどくさい
実験では、日本語が使われていないのか・・・
https://scrapbox.io/files/65ae0944329d910027087e16.png
この指標は使わないこととする
概要
生成大規模言語モデル(LLM)、例えばChatGPTは、機械翻訳、質問応答、テキスト要約、自然言語理解など、いくつかの自然言語処理タスクで顕著な能力を発揮している。最近の研究(Kocmi and Federmann, 2023)では、機械翻訳(MT)の品質評価にChatGPTを利用することで、システムレベルでは最先端の性能を達成できるが、セグメントレベルでは性能が劣ることが示されている。機械翻訳の品質評価におけるLLMの性能をさらに向上させるために、我々はいくつかのプロンプト方式について調査を行った。その結果、Chain-of-Thoughts (Wei et al., 2022)とError Analysis (Lu et al., 2022)を組み合わせることで、Error Analysis Promptingと呼ばれる新しいプロンプティング手法により、ChatGPTのようなLLMはシステムレベルとセグメントレベルの両方で人間のようなMT評価を生成できることがわかった。さらに、1つのクエリで複数の翻訳が提供された場合の不安定なスコアリングやバイアスなど、MT評価としてのChatGPTのいくつかの限界を発見した。私たちの発見は、ChatGPT上で適切に翻訳品質を評価するための予備的な経験を提供することを目的とし、同時に、インコンテキスト学習のためのプロンプトを設計する際の様々なコツを提供するものです。メトリクスの精度と信頼性を向上させることで、LLMを用いた翻訳評価分野の発展に新たな光が当たることを期待しています。
主なポイント
背景: 現代の大規模言語モデル(LLM)、特にChatGPTは、様々な自然言語処理(NLP)タスクで高い能力を示しています。しかし、これらのモデルを用いて機械翻訳の品質を評価する際、システムレベルでは優れた性能を発揮するものの、セグメントレベルでは精度が低いことが指摘されています。
EAPromptの提案: 著者らは、Error Analysis Prompting(EAPrompt)という新しい提示方法を提案しています。これは、Chain-of-Thought(CoT)とError Analysis(EA)を組み合わせたもので、機械翻訳の評価において人間に近い判断を行うことを目的としています。
実験結果: EAPromptは、従来の提示方法と比較して、システムレベルとセグメントレベルの両方で高い性能を示しました。特に、ChatGPTを用いたEAPromptは、人間のような評価を生成することに成功しました。
https://scrapbox.io/files/65ae094f858d1800254056f1.png
制限と今後の課題: しかし、この研究にはいくつかの制限があります。たとえば、ChatGPTは高品質なMTシステムの評価において不安定な結果を示すことがあり、入力の順序によって評価が影響を受けることがあります。