Wisdom of the Silicon Crowd
Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy
claude.iconこの論文は、大規模言語モデル (LLM) のアンサンブルアプローチによる予測能力を、人間の群衆予測の正確さと比較した研究について述べています。 研究1では、12のLLMからなる群衆を使用し、その予測を集約して、925人の人間予測者からなる3か月間の予測トーナメントの群衆予測と比較しました。その結果、LLMの群衆は単純なベンチマークを上回り、人間の群衆と統計的に差がないことがわかりました。
研究2では、人間の群衆予測の中央値を情報として与えることで、GPT-4とClaude 2の予測精度が17%から28%向上することがわかりました。ただし、単に人間と機械の予測を平均するよりは精度が低くなりました。
これらの結果は、予測集約という単純かつ実用的な手法によって、LLMが人間の群衆予測トーナメントに匹敵する予測精度を達成できることを示唆しています。これはLLMに対して「群衆の知恵」効果を再現するものであり、社会のさまざまな用途でのLLM活用の可能性を開くものです。 nishio.icon
LLMによって人類が賢くなる方法として、より多くの人の声を聞けるようにするブロードリスニングと、一人で考えるのではなくAIアシスタントと会話しながら考える方向とがある。 この後者に関して「人間とアシスタントの1対1」ではなく、アシスタントが12体のLLMになることによってより良い思考になりうるということを示した研究