日本語を対象とした LLM の大規模人手評価
https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/P7-6.pdf
#NLP2025
#ichikara-instruction
図1
Claude 3.5が一番面積が大きい
https://github.com/llm-jp/llm-human-eval-jp
関連:
LLM の安全性における大規模人手評価