Generative social choice

はい、承知いたしました。論文「Generative Social Choice」の内容を、各項目について解像度を10倍に高め、論文の主張、手法、結果、そして考察のすべてを網羅して詳細に解説します。

論文「Generative Social Choice」徹底解説

要旨 (Abstract) - 詳細解説

この論文は、現代のAI技術、特に大規模言語モデル（LLM）を用いて、民主的な意思決定の範囲を根本的に拡張することを目指しています。

中心的な問題意識: 投票や選挙の数学的理論である「社会選択理論」は、これまで「A候補、B候補、C候補の中から1人選ぶ」といった、選択肢が少数かつ事前に固定されている状況にしか適用できませんでした。しかし、私たちが直面する社会問題（例：「気候変動にどう対処すべきか？」）は、単純な選択肢では表現できない、オープンエンドな性質を持っています。このギャップを埋めることが本研究の目的です。

提案する解決策: 「生成的社会選択（Generative Social Choice）」という新たな設計パラダイムを提唱します。これは、社会選択理論が持つ数学的な厳密性（公平性や代表制の保証）と、LLMが持つ柔軟な能力（テキストの生成、多様な意見の理解、未知の事柄に対する予測）を融合させるアプローチです。

具体的なフレームワーク（設計思想）: このパラダイムは、信頼性と厳密性を両立させるための2段階のアプローチを核としています。

1. 【理論】完全なクエリを用いた保証: まず、LLMがいかなる問いにも完璧に答えられる理想的な存在（神託、オラクル）であると仮定します。この理想的な状況下で、「代表制を保証できる」などの望ましい性質を持つ民主的なプロセス（アルゴリズム）を設計し、その正しさを数学的に証明します。これにより、アルゴリズム自体の論理的な正しさを担保します。

ここの望ましい性質の定義が気になるねblu3mo.icon

2. 【実践】クエリの経験的検証: 次に、理論段階で仮定した「完璧な問い」を、現実のLLM（例: GPT-4）を用いて実装します。そして、その実装が、理想的な神託の答えとどれほど近いかを実験によって検証します。LLMの性能が向上すればするほど、この近似の精度は高まり、理論的な保証が現実世界でより強固に実現されることになります。

良いストーリーblu3mo.icon

LLMが強くなればなるほど現実的になるベットは良いblu3mo.icon

応用事例と主要な結果: このフレームワークを、**「多様な自由形式の意見を、集団全体を比例的に代表する少数の意見表明スレート（一覧）に要約する」**という具体的な問題に適用しました。

実験: 米国の人口構成を反映した100人の住民から、中絶政策に関する自由形式の意見を収集しました。

プロセス: 提案手法を用いて、これらの意見から5つの代表的な意見文を自動生成しました。

検証: 生成された5つの意見文を、全く別の米国住民100人に見せて評価を求めたところ、100人中84人が、自分に割り当てられた意見文が自らの視点を「極めて(excellently)」または「卓越して(exceptionally)」代表していると回答しました。これは、本手法が非常に高いレベルの代表性を達成したことを示しています。

「全体を代表できること」を目指しているのねblu3mo.icon

1. 序論 (Introduction) - 詳細解説

1.1. LLMが古典的社会選択理論の限界をどう克服するか

古典的な社会選択理論がオープンエンドな問題に対応できない根本的な障壁は2つあり、LLMはそれぞれを克服する可能性を秘めています。

障壁1: 予期せぬ選択肢 (Unforeseen Alternatives)

古典的問題: 従来の投票制度では、選択肢は事前にすべてリストアップされている必要があります。例えば、2016年の英国のEU離脱国民投票では選択肢が「離脱」か「残留」しかなく、「穏健な離脱」のような中間的な選択肢は投票対象ですらありませんでした。たとえそれが多くの支持を集める可能性があったとしても、選ばれることはありませんでした。

LLMによる克服: LLMは、参加者から集めた多様な意見の共通点や妥協点を見出し、誰も予期していなかった新しい選択肢をその場で生成する能力を持っています。これにより、意思決定の空間が「事前に決められた点」から「可能性のあるすべてのテキスト」へと一気に広がります。

そうねblu3mo.icon

障壁2: 選好の推定 (Extrapolating Preferences)

古典的問題: 参加者は、提示された各選択肢に対して個別に評価（ランキング付けや承認など）を表明する必要があります。しかし、上記のように新しい選択肢が動的に生成される場合、その都度すべての参加者に評価を問い直すのは非現実的です。

LLMによる克服: 参加者は、自らの意見や価値観を自然言語（普通の文章）で表現するだけでよくなります。LLMは、そのテキストから参加者の根底にある価値観を学習し、その参加者の「代理人（プロキシ）」として機能します。これにより、既存の選択肢だけでなく、**新たに生成された未知の選択肢に対しても、その参加者がどう評価するかを高精度で予測（推定）**することが可能になります。

そうね〜　これもやれるblu3mo.icon

1.2. 生成的社会選択のフレームワーク

LLMの持つ柔軟性と、社会選択理論の持つ厳密性という、一見相容れない二つの要素を組み合わせるための設計思想です。

第一の構成要素: 完全なクエリを用いた保証

これは「理想世界でのアルゴリズム設計」のフェーズです。ここでは、LLMをブラックボックスとして扱うのではなく、「最適な新しい選択肢を生成せよ」や「この人のこの選択肢に対する評価を予測せよ」といった特定の**クエリ（問い）に対して100%正確な答えを返す神託（オラクル）**と仮定します。

「この人のこの選択肢に対する評価を予測せよ」を100%

これは、LLMの性能の問題ではなく情報がどこまでえられているかの問題では？これを100%としていいのかな？blu3mo.icon

この仮定の下で、数学的に厳密なアルゴリズムを設計します。目的は、「このアルゴリズムをこの神託と共に使えば、必ず公平性や代表制が保証される」ということを証明することです。これにより、プロセスの核となるロジックの正当性を確立します。

第二の構成要素: クエリの経験的検証

これは「現実世界での実装とテスト」のフェーズです。第一の構成要素で定義された理想的なクエリ（例：「Sというグループの意見を最もよく反映する文を生成せよ」）を、現実のLLMへのプロンプトとして実装します。

そして、そのLLMの出力が、理想的な神託の出力とどれだけ近いかを実験的に測定します。例えば、LLMに予測させた評価と、実際にその人が付けた評価を比較して、誤差を定量化します。

このフレームワークの利点は、将来の技術発展に対応可能である点です。将来、より高性能なLLMが登場すれば、クエリの実装精度が向上し、理論的に保証された性質が、より高いレベルで現実のものとなります。理論的な部分はそのままに、実装部分だけをアップグレードできるのです。

1.3. 本研究の成果：ケーススタディ

このフレームワークを、自由記述意見の比例代表的要約という問題に適用した際の、具体的な貢献を詳述します。

設定: オンラインプラットフォーム（Polisなど）や質的調査で集められた大量の自由記述意見をインプットとし、多様な視点とその相対的な広がりを忠実に反映した、少数の（$k$個の）代表的な意見表明スレートを生成します。

理論的貢献:

新しい表明公理「BJR」の導入: 既存の代表制公理「Justified Representation (JR)」を、本研究の目的に合わせて強化した**均衡の取れた正当な代表（Balanced Justified Representation, BJR）を提案しました。BJRは、単に「代表されていないグループがいない」ことを保証するだけでなく、「各代表意見が、ほぼ同じ人数の参加者を代表する」という均衡（バランス）**を要求します。これにより、一つの人気意見が不釣り合いに多くの人々を代表し、他の意見の代表性が希薄になるのを防ぎます。

均等さを大事にするんだ？あんまり気持ちがわかっていないblu3mo.icon

BJR保証アルゴリズム (プロセス1): クエリサイズに制限がない理想的な状況で、BJRを多項式時間で達成する貪欲アルゴリズムを開発しました。

サイズ制約下の限界の解明: 実際のLLMのコンテキスト長を考慮し、クエリサイズ（一度に扱える人数）に制約がある場合を分析しました。その結果、クエリサイズが小さすぎるとBJR達成は不可能であり、ある程度大きくても効率的な達成は極めて困難（指数関数的な時間が必要）であることを証明しました。

スケーラビリティの実現 (プロセス2): 上記の困難性の結果は、選好が極端に複雑な「最悪ケース」で起こることを突き止めました。現実の選好はもっと「構造化」されているという仮定（有限のVC次元を持つ）を置くことで、参加者の総数$n$に依存しない小さなサイズのクエリでBJRを確率的に保証するサンプリングベースのアルゴリズムを開発しました。これにより、理論上は国家規模の人数にも対応可能なスケーラビリティを確保しました。

実験的貢献:

クエリの実装: 理論で定義された「識別クエリ」（選好予測）と「生成クエリ」（意見生成）を、GPT-4oを用いて実際に実装し、その精度を検証しました。

実証実験: 提案した全プロセスを、中絶政策に関する米国住民の意見データに適用。生成されたスレートが、独立した評価者集団によって非常に高く評価されることを示し、手法全体の有効性を実証しました。

1.4. 関連研究

本研究は複数の研究分野の交点に位置づけられますが、それぞれに対して明確な新規性を持っています。

PolisとLLM: Polisは熟議プラットフォームであり、LLMを投票予測などに使う研究はありますが、本研究のように社会選択理論の公理的保証に基づき、新たな代表意見を生成するアルゴリズムを提案・検証した研究はこれまでありませんでした。

仮想民主主義: 人々の価値観を学習し、新しい倫理的問題に対する彼らの判断を予測する研究ですが、これは既存の選択肢に対する判断を予測するものであり、本研究のように新しい選択肢自体を生成する点が一線を画します。

合意形成文の生成研究: Bakkerらの研究は、LLMを用いてグループの**単一の合意（コンセンサス）**形成を支援しますが、本研究の目的は、合意形成が困難な多様な意見が存在する場合に、単一の妥協点ではなく、複数の異なる意見を比例的に代表するスレートを生成することにあり、目的が根本的に異なります。

複数の異なる意見を比例的に代表するなるほどね〜〜blu3mo.icon

国会議員を生成するようなものかblu3mo.icon

「いい感じにPolisをクラスタリングする」とやっていることは近いねblu3mo.icon

正当な代表（JR）の研究: 承認投票における委員会選挙の研究が基礎にありますが、本研究はそれをカーディナルな効用（0/1だけでなく多段階評価）に拡張し、生成的な設定（選択肢が無限に存在する）に適用し、さらにBJRという新しい公理を導入した点で技術的に大きく貢献しています。

このへん前提を理解したいね

2. モデル (Model) - 詳細解説

ここでは、論文で使われる数学的な言語とルールを厳密に定義します。

基本設定:

エージェント集合 $N$: 意思決定に参加する人々の集合。人数を$n$とする。

意見表明の宇宙 $U$: 考えうる全ての（適切で、トピックに関連した）意見表明の集合。これは無限集合でも構わない。

効用関数 $u_i$: 各エージェント$i$が、任意の意見表明$\alpha \in U$に対してどれだけ満足するかを表す関数 ($u_i: U \to \mathbb{R}$)。数値が高いほど満足度が高い。

民主的プロセス: $N$とスレートサイズ$k$を入力として受け取り、$k$個の意見表明の集合（スレート）を出力するアルゴリズム。このアルゴリズムは$U$や$u_i$を直接知ることはできず、後述のクエリを通じてのみ情報にアクセスできる。

2.1. クエリ (Queries)

アルゴリズムが世界（人々の意見や可能な表明）と対話するための唯一の手段です。

識別クエリ (Discriminative Queries): Disc(i, α)

機能: 特定のエージェント$i$と特定の意見表明$\alpha$を与えると、そのエージェントの$\alpha$に対する効用値$u_i(\alpha)$を返す。

直感的意味: 「Aさんが『X』という意見をどれくらい支持しますか？」と尋ね、その評価点を正確に得ることに相当する。LLM実装では、Aさんの過去の発言データからこの評価点を予測する。

生成クエリ (Generative Queries): t-Gen(S, r)

機能: 最大$t$人のエージェントからなる集合$S$と、整数$r$ ($0 \le r \le |S|$)を与えると、$S$内のメンバーからの効用を考えたときに、「$r$番目に高い効用値」が最大になるような意見表明$\alpha$を、宇宙$U$全体から探し出して返す。

直感的意味: パラメータ$r$がこのクエリの性質を決定する。

$r = |S|$の場合: max(min(u_i(α)))、つまりグループ$S$の全員の最低満足度を最大化する意見（全員一致の妥協点）を探す。

$r = 1$の場合: max(max(u_i(α)))、つまりグループ$S$の誰か一人でも最高に満足する意見（ニッチだが熱狂的な支持を得る意見）を探す。

$r$が中間の値の場合: グループ$S$内のよりマイナーな意見から、よりコンセンサスに近い意見まで、生成する意見の性質を滑らかに調整する役割を果たす。

2.2. 表明公理 (Representation Axiom)

生成されたスレート$W$が「良い」ものであるかを判断するための数学的な基準です。

均衡の取れた正当な代表 (Balanced Justified Representation, BJR)

形式的定義: スレート$W$がBJRを満たすとは、次の条件をすべて満たすような「不満なグループ」が存在しないことである。

1. 割り当て: 全エージェント$N$を、スレート内の各意見表明$w \in W$に、各意見が$\lfloor n/k \rfloor$人または$\lceil n/k \rceil$人のエージェントを代表するように、バランス良く割り当てる（この割り当て関数を$\omega$とする）。

2. 不満なグループの不存在: 以下の(i)〜(iii)を同時に満たすような、エージェントの集団（コアリション）$S \subseteq N$、意見表明$\alpha \in U$、効用閾値$\theta \in \mathbb{R}$が存在しない。

(i) サイズ条件: グループ$S$の人数が、比例的に議席を得るのに十分な大きさ（$|S| \ge n/k$）である。

(ii) 結束条件: グループ$S$の全員が、ある意見$\alpha$に対して、少なくとも$\theta$以上の高い効用を持っている（$u_i(\alpha) \ge \theta$ for all $i \in S$）。

(iii) 不満条件: グループ$S$の全員が、自分に割り当てられた代表意見$\omega(i)$に対して、効用が$\theta$未満である（$u_i(\omega(i)) < \theta$ for all $i \in S$）。

直感的意味: もし、十分な人数が集まって「私たちは全員、この$\alpha$という意見を$\theta$以上支持しているのに、私たちに割り当てられた代表意見は全員$\theta$未満だ！」と主張できるような結束した不満グループが存在するならば、そのスレートはBJRを満たしていない（＝代表に失敗している）。BJRは、そのような状況を一切許さないことを要求する、非常に強い代表制の保証です。

承知いたしました。論文「Generative Social Choice」の解説を続けます。セクション3から、前回と同じ解像度で詳細に解説していきます。

3. 第一の構成要素：完全なクエリを用いた保証 (Guarantees with Perfect Queries) - 詳細解説

このセクションは、論文のフレームワークの「理論」パートです。ここでは、LLMが**完璧な神託（オラクル）**であるという理想的な仮定の下で、BJR（均衡の取れた正当な代表）という表明公理を保証するアルゴ-リズムを設計し、その理論的な性質を深く掘り下げます。

3.1. 制約のないクエリ (Unconstrained Queries)

これは、最も理想的な、いわば「空想上」のシナリオです。アルゴリズムは、参加者全員（$n$人）の情報を一度に処理できる、サイズに制約のない生成クエリ (n-Gen) を使用できると仮定します。

プロセス1 (Process 1) の提案: BJRを保証するために提案されたアルゴリズムです。

アルゴリズムの性質: このプロセスは、既存の社会選択アルゴリズムである「Greedy Approval Voting」や「Greedy Monroe Rule」の考え方を、本研究のカーディナルな効用設定と生成的な環境に適応させたものです。

動作のステップバイステップ解説:

1. 初期化: まだ代表されていないエージェントの集合$S$を全エージェント$N$とし、生成するスレート$W$を空集合とします。

2. 反復処理 (k回): スレートが$k$個の意見で満たされるまで、以下の処理を繰り返します。

a. 最適な意見の生成: まだ代表されていないエージェント集合$S$全体の中から、約$n/k$人からなるグループを見つけ出し、そのグループの**最低満足度（最小効用）**を最大化するような意見表明$\alpha$を、生成クエリ Gen(S, ⌈n/k⌉) を使って生成します。これは、残っている人々の中から、最も結束して満足させることができるグループを見つけ、そのための意見を「創造」するステップです。

b. スレートへの追加: 生成された意見$\alpha$をスレート$W$に追加します。

c. 満足したエージェントの除去: 新たな意見$\alpha$によって最も効用が高かったエージェント（約$n/k$人）を特定し、彼らを「満足した」と見なして集合$S$から除去します。

3. 出力: $k$回の反復が終了したら、完成したスレート$W$を出力します。

直感的意味: このプロセスは、最も代表する価値のある（＝まだ代表されておらず、かつ意見がまとまりやすい）グループを毎回見つけ出し、彼らのためのオーダーメイドの代表意見を生成して、彼らを満足させていくという貪欲な戦略を取ります。

定理2 (Theorem 2):

主張: プロセス1は、多項式時間で完了し、その出力は必ずBJRを満たす。

証明の要点: 証明は、BJRの定義に立ち返って行われます。もしBJRを破るような「不満なグループ」$S'$が存在したと仮定します。このグループ$S'$は、プロセス1のどこかのステップ$j$で、メンバーの誰かが初めて「満足した」と見なされ、集合から除去されたはずです。そのステップ$j$の開始時点では、$S'$のメンバーは全員まだ残っています。このとき、アルゴリズムは「残っている人々の中で最も満足させられるグループ」を探しているため、結束している$S'$が支持する意見$\alpha'$よりも満足度の低い意見が選ばれることはありえません。したがって、$S'$から除去されたメンバーは、彼らが不満を表明している基準値$\theta$以上の効用を得ているはずであり、これは「不満である」という仮定に矛盾します。よって、BJRを破るグループは存在しえない、と結論付けられます。

3.2. サイズ制約のある生成クエリ (Size-Constrained Generative Queries)

このセクションでは、理想的な仮定を現実に近づけます。実際のLLMは、一度に入力できる情報量（コンテキストウィンドウ）に上限があるため、何百人もの参加者の詳細な意見を一度に処理することはできません。したがって、生成クエリが扱えるエージェントの数（クエリサイズ$t$）は、$n$よりもずっと小さいと仮定する必要があります。

命題3 (Proposition 3) - 不可能性:

主張: もしクエリサイズ$t$が、比例代表に必要な人数$n/k$より少しでも小さい（具体的には $t < \frac{n}{k}(1 - \frac{1}{k})$）場合、BJRを保証することは、どんなアルゴリズムを使っても不可能である。

証明のアイデア（「影に隠す」論法）: この証明は、意図的に作られた悪意のあるインスタンスを考えます。

インスタンスの構成: 1つの「人気な」意見$\alpha$（全員が支持する）と、無数の「不人気な」意見（それぞれが高々$t$人の特定のグループしか支持しない）が存在する世界を考えます。

アルゴリズムの視点: アルゴリズムがサイズ$t$のクエリで任意の$t$人のグループについて尋ねると、その$t$人だけをピンポイントで支持する「不人気な」意見が、そのグループ内では効用が最大になります。したがって、クエリの応答は常に「不人気な」意見を返し、アルゴリズムは「人気な」意見$\alpha$の存在に気づくことができません。

結果: アルゴリズムは「不人気な」意見だけでスレートを構成せざるを得ません。しかし、各意見は$t$人しかカバーしないため、スレート全体でも高々$k \cdot t$人しかカバーできず、多くの人々がどの意見にも代表されない状態になります。彼らは全員が支持する「人気な」意見$\alpha$によって代表されるべきだったので、これはBJR違反となります。

定理5 (Theorem 5) - 計算困難性:

背景: では、クエリサイズ$t$を、理論的に必要な最小値である$\lceil n/k \rceil$まで引き上げれば問題は解決するのでしょうか？命題4で示されているように、理論上は、考えうる全てのサイズ$\lceil n/k \rceil$のサブグループに対してクエリを実行し、その中で最良の結果を選ぶという**総当たり（ブルートフォース）**を行えば、BJRを達成できます。しかし、これは組み合わせ爆発を引き起こし、非現実的な計算時間（指数時間）を要します。

主張: 多項式時間で動作する（＝効率的な）アルゴリズムは、たとえクエリサイズが$t = n/8$（$n/k$より大きい場合もある）とかなり大きくても、BJRを保証することはできない。 BJRを保証するには、指数関数的な数のクエリが必要になる。

証明のアイデア（確率的手法）: この証明はより高度で、特定のアルゴリズムを固定した上で、そのアルゴリズムを「騙す」ようなインスタンスが存在することを示します。

1. ランダムなインスタンスを考えます。このインスタンスには、少数の「人気な」色のグループ意見と、無数の「不人気な」サブグループ意見が存在します。

2. 任意の効率的なアルゴリズムは、多項式個のクエリしか実行できません。

3. アルゴリズムが実行するどのクエリにおいても、クエリ対象のグループ内で、「人気な」意見が偶然にも「不人気な」意見より目立ってしまう（＝支持者が多くなってしまう）確率は非常に低いことを示します。

4. したがって、高い確率で、アルゴリズムが実行するすべてのクエリは、あたかも「人気な」意見が存在しないかのように振る舞い、「不人気な」意見を返します。

5. 結果として、アルゴリズムは「不人気な」意見のスレートを出力し、BJR違反を犯します。これが正の確率で起こるため、そのようなインスタンスが少なくとも一つは存在することが証明されます。

このセクションの結論: 構造のない一般的な設定では、スケーラブルな（大規模な人数$n$に対応できる）方法でBJRを保証することは絶望的である、というネガティブな結果を示しています。

3.3. 構造化された選好設定 (Structured Preference Settings)

前節の悲観的な結果は、あくまで「最悪ケース」の、人工的で極端に複雑な意見構造を仮定した場合のものです。このセクションでは、現実世界の意見分布はもっと「構造化」されているという、より現実的な仮定を導入することで、この困難性を乗り越えます。

「構造」の形式化 - VC次元:

直感的意味: 現実の意見には相関があります。「経済は自由主義、社会問題はリベラル」という人はいても、「月曜は自由主義、火曜は社会主義」というような無秩序な意見を持つ人はいません。この意見の「複雑さ」や「パターンの豊かさ」を測るための数学的な尺度がVC次元 (Vapnik-Chervonenkis dimension) です。

定義: VC次元$d$とは、「どのような支持・不支持のパターンでも、それに対応する意見を（ある閾値$\theta$を使って）作り出せる」ようなエージェントの最大人数です。VC次元が小さいということは、意見のパターンが限定的であり、それほど複雑ではないことを意味します。

例: 人々の意見が単純な「リベラル vs 保守」の1次元直線上に分布している場合、VC次元は非常に小さくなります（例えば2）。なぜなら、「直線の両端の2人が支持し、真ん中の1人が支持しない」ような意見を作るのは非常に困難だからです。

プロセス2 (Process 2) の提案:

プロセス1との決定的な違い: プロセス1では、各ステップで残っている全員の中から最適なグループを探していました（これが計算量とクエリサイズの問題を引き起こした）。プロセス2では、全エージェント$N$からランダムに少数のエージェントをサンプリングした集合$X$を作成し、そのサンプル内で最適なグループを探します。

サンプリングの力: 学習理論によれば、母集団（全エージェント）に何らかの構造（有限のVC次元）がある場合、その性質はごく少数のランダムサンプルにもよく反映されます。したがって、サンプル内で最適な意見を見つけることは、全体にとっても（近似的に）最適な意見を見つけることに繋がります。

定理6 (Theorem 6) - スケーラビリティの達成:

主張: もし意見空間のVC次元が$d$（有限）であるならば、プロセス2は、高い確率（$1-\delta$）でBJRを保証する。そして最も重要な点は、そのために必要なクエリサイズ$t$（＝サンプルサイズ）が、$O(k^4(d + \log \frac{k}{\delta}))$ となり、参加者の総数$n$に依存しないことである。

含意: この定理は、前節のネガティブな結果を覆す、この論文の理論パートにおける最も重要な成果の一つです。VC次元が現実的な範囲に収まるという穏当な仮定さえ置けば、たとえ参加者が100万人になろうとも、数百人程度のサンプルに対する小さなクエリを繰り返すだけで、集団全体に対する代表制を保証できることを示しています。これにより、提案手法は理論的にスケーラブルであることが証明されました。

4. 第二の構成要素：クエリの経験的検証 (Empirical Validation of Queries) - 詳細解説

このセクションは、論文のフレームワークの「実践」パートです。セクション3で理論的に定義された理想的なクエリ（神託）を、現実のLLM（具体的にはOpenAIのGPT-4o）を用いてどのように実装し、その性能をどう評価したかを詳述します。

評価用データ: この検証のために、セクション5で詳述する中絶に関する100人の米国住民の調査データを使用します。このデータには、各参加者の詳細な自由記述回答と、5つのサンプル意見文に対する7段階評価（0: 全くダメ〜 6: 完璧）が含まれています。この7段階評価が、参加者の真の「効用」の代理指標となります。

4.1. 識別クエリ (Discriminative Queries)

識別クエリの目的は、Disc(i, α)、つまりエージェント$i$が意見表明$\alpha$をどれだけ支持するか（効用$u_i(\alpha)$）を予測することです。

実装方法:

プロンプト設計: GPT-4oに対して、単に「この人の意見を読んで、この文を評価してください」と尋ねるのではなく、より高精度な予測を引き出すための工夫が凝らされています。

コンテキスト: プロンプトには、以下の情報が含まれます。

1. 参加者$i$の詳細なプロフィール: 中絶に関する複数の質問への自由記述回答すべて。

2. 評価の例（Few-shot learning）: 参加者$i$が、他の4つのサンプル意見文に付けた評価スコアとその理由（自由記述）。

3. 予測対象: 評価を知りたい意見表明$\alpha$を提示し、「このユーザーなら、この文に0から6のどの評価を付けると最も考えられますか？」と問いかけます。

出力: LLMの出力を単一の数字（最も確率の高いトークン）として受け取るのではなく、各評価値（0〜6）の出力確率分布を取得します。識別クリの最終的な予測値は、この確率分布の期待値とします。これにより、整数だけでなく小数点以下の値も取るため、アルゴリズム内での同点（タイ）の発生を減らす効果もあります。

性能評価:

手法: リーブワンアウト交差検証を行います。100人の参加者それぞれについて、5つのサンプル意見文のうち1つを「未知の文」として隠し、残りの4つの評価をプロンプトに含めて、隠した文への評価を予測させます。これを全参加者・全サンプル文（$100 \times 5 = 500$データポイント）に対して行います。

結果1: 誤差の小ささ: 予測された評価と実際の評価の平均絶対誤差（MAE）は0.93でした。これは7段階評価において、平均して1段階未満の誤差しかなく、非常に高い予測精度であることを示しています。

結果2: 順序関係の正しさ: アルゴリズムの動作にとって重要なのは、絶対的な評価値よりも、どちらの意見をより好むかという順序関係です。そこで、異なる2つの予測ペア（(参加者1, 意見A) vs (参加者2, 意見B)）を取り出し、予測値の大小関係が、実際の評価値の大小関係と一致するかを調べました。その結果、**正解率は86.7%**に達しました（ランダムなら50%）。これは、LLMが単に人気の意見を高評価するだけでなく、個々の参加者と意見のマッチング度合いを的確に捉えていることを示唆しています。

4.2. 生成クエリ (Generative Queries)

生成クエリは、Gen(S, r)、つまりグループ$S$にとって最適な意見を創造するという、より挑戦的なタスクです。

実装上の課題と解決策:

課題: 単純なプロンプト（例：「この人々の意見をまとめてください」）では、LLMはクエリの複雑な目的（特に、$r$番目の効用を最大化するという概念）をうまく理解できず、安定した性能が得られませんでした。

解決策: タスクを複数のサブタスクに分解し、それぞれに特化した手法を組み合わせる多段階パイプラインを構築しました。

サブタスク(i): 結束したグループの特定: LLMが苦手とする部分。LLMにグループを探させるのではなく、より頑健な方法を採用。

1. 意見のベクトル化: まず、各参加者の意見の要約文から、LLMを用いて50次元の特徴ベクトルを生成します（例：「胎児の生命の神聖さ」という特徴にどれだけ言及しているか、など）。

2. クラスタリング: このベクトル空間上で、k-means法や最近傍法といった標準的な機械学習アルゴリズムを用いて、意見の近い参加者のグループを特定します。

サブタスク(ii): 特定グループのための合意形成文の生成: LLMが得意とする部分。

1. 思考連鎖 (Chain-of-Thought) プロンプト: 特定されたグループのメンバーの意見要約をLLMに提示し、「まず、このグループの共通点と相違点を分析しなさい。次に、全員が合意できる要素と避けるべき要素を考察しなさい。最後に、それらを踏まえて、グループの最小満足度を最大化するような意見文を書きなさい」というように、段階的に思考させるプロンプトを使用します。

アンサンブルによる頑健性の向上:

一度の生成で常に最良の結果が得られるとは限らないため、上記の方法で複数の候補グループ（例: k-meansで分割されたグループ、ある参加者とその近傍のグループなど）に対してそれぞれ意見文を生成させます。

生成された複数の候補文を、今度は検証済みの識別クエリにかけて、それぞれの目的関数値（例: $r$番目の効用値）を推定します。

最終的に、推定されたスコアが最も高い意見文を生成クエリの出力として採用します。これにより、単一の生成の失敗に左右されない、頑健なシステムを構築しています。

性能評価:

手法: 理想的な「正解」が存在しないため、参加者自身が書いた意見文を自然なベースラインとして比較評価します。ランダムに4人のグループを多数抽出し、(A) LLMに生成させた合意形成文と、(B) グループメンバー4人がそれぞれ書いた意見文を比較します。評価は識別クエリによって行います。

結果: LLMが生成した文は、グループ内の**最低満足度（最小効用）**という観点において、**メンバー4人が書いたどの文よりも優れている確率が61.1%でした。さらに、LLMの生成を複数回試行し、その中で最も良いもの（アンサンブル）を選んだ場合、この勝率は79.0%**まで上昇しました。これは、LLMが単に平均的な意見を述べるだけでなく、グループ内の全員がある程度満足できるような、巧みな合意形成文を生成する能力を持つことを示しています。

5. 調査：中絶に関する世論 (A Study of Public Opinion on Abortion) - 詳細解説

このセクションでは、開発したシステム全体を、現実の複雑な社会問題である「中絶」に適用した実証実験について報告します。

5.1. 試行の概要 (Pilot Description)

この実験は、客観性を担保するために、2つの独立したフェーズで構成されています。

フェーズ1: 生成 (Generation)

参加者: 米国の性別・2020年大統領選挙の投票行動の人口構成比を再現した**100人の住民（生成サンプル）**を募集。

タスク: 彼らに、中絶に関する複数の質問に自由形式で詳細に回答してもらいます。

プロセス: 集まった100人分の回答データを、本研究で開発した**生成的社会選択の民主的プロセス（プロセス1と実装済みクエリ）**に入力し、5つの代表的意見からなるスレートを自動生成します。

ベースライン: 比較のため、GPT-4oに100人分の全回答を一度に渡し、「この人々を代表する5つの意見を生成してください」と直接指示して生成させたベースライン・スレートも用意します。

フェーズ2: 検証 (Validation)

参加者: 生成フェーズとは全く別の、同様に人口構成比を調整した**100人の住民（検証サンプル）**を新たに募集します。

タスク: 彼らに、生成された合計10個の意見文（提案手法の5つ＋ベースラインの5つ）を、その出典を知らされないままランダムな順序で提示し、それぞれが自身の意見をどれだけよく捉えているかを7段階で評価してもらいます。

目的: この設計により、「生成に使われた人々」による内輪の評価ではなく、より広範な米国住民の視点から、生成されたスレートの代表性を客観的に評価することができます。

5.2. 結果 (Results)

生成されたスレートの内容: 提案手法によって生成された5つの意見は、3つが明確なプロチョイス（中絶擁護）、1つが明確なプロライフ（中絶反対）、そして残りの1つが特定の条件下でのみ中絶を容認し、予防教育を重視する穏健な立場でした。この構成は、米国の世論調査の結果とおおむね一致しており、意見のスペクトラムを広くカバーしていることが示唆されました。

代表性の定量的評価:

マッチング: 検証サンプルの100人を、提案手法による5つの意見に、全体の満足度が最大になるように割り当てました（各意見に20人ずつ）。

驚異的な高評価: その結果、割り当てられた意見に対し、54%が「卓越して(exceptionally)」(6/6)、30%が「極めて(excellently)」(5/6)代表されていると回答しました。合計で84%の参加者が、最高レベルの満足度を示したことになります。

平均評価: 参加者が自分に割り当てられた意見に付けた評価の平均は5.31（7段階評価の最大は6）であり、非常に高い水準でした。評価が「良い(Well)」(3/6)を下回ったのは、100人中わずか1人でした。

ベースラインとの比較:

ベースライン・スレートも高い評価（平均5.15）を得ましたが、提案手法のスレート（平均5.31）には及びませんでした。特に、提案手法のスレートは、どの評価レベルにおいても、ベースライン以上の人数を満足させているという点で優れていました（専門的には「確率的優位」の状態）。

BJRの観点からの分析:

BJR違反が起きているかを完全に検証することは困難ですが、その「近さ」を測ることはできます。

分析: 提案手法のスレートに対し、ベースラインの意見文を使ってBJR違反（結束した不満グループ）を形成しようとした場合、形成できる最大のグループサイズは5人でした。一方、ベースラインのスレートに対し、提案手法の意見文を使って違反を形成しようとすると、最大9人のグループが形成できてしまいました。

結論: この結果は、提案手法のスレートがベースラインよりもBJRの基準に対してより頑健であり、代表の漏れが少ないことを強く示唆しています。

6. 考察 (Discussion) - 詳細解説

このセクションでは、本研究の成果が持つより広範な意味合いと、今後の課題について論じます。

AIによる参加型プロセスの正当性への問いかけ: 近年、AIを民主主義や市民参加に応用する試みが爆発的に増えています。しかし、そのプロセスが真に「民主的」であると言えるか、その**正当性（legitimacy）**を2つの側面から厳しく問う必要があると主張します。

1. 脅威1: AIコンポーネント自体の信頼性 (Trustworthiness of AI)

リスク: LLMは、悪意のある入力（プロンプトインジェクション）に脆弱であったり、特定の集団や視点に対するバイアスを持っていたりする可能性があります。

対策: この問題に対し、本研究は「信用しつつも検証する (trust, but verify)」というアプローチを提案します。例えば、AIが生成したスレートを最終決定とするのではなく、それを一つの「提案」と位置づけ、最終的には参加者自身が、自分たちの手で書いた意見とAIの提案を比較投票し、BJR違反がないことを確認した上で採択する、という二段階のプロセスが考えられます。これにより、AIの力を借りつつも、最終的な権限は人々の手に留保されます。

2. 脅威2: プロセス全体の民主的正当性 (Democratic Legitimacy)

問題: たとえAIが技術的に完璧で信頼できたとしても、「参加者全員から意見を聞いた」というだけでは、そのプロセスが民主的であることの十分な根拠にはなりません。

本研究の主張: AIを用いた投票ルールも、伝統的な投票ルールと全く同じ基準で評価されるべきです。つまり、その正当性は、応答性、効率性、公平性といった、社会選択理論で長年培われてきた公理的な保証によって裏付けられるべきです。

貢献: 「生成的社会選択」のフレームワークは、まさにこの要求に応えるものです。それは、達成すべき**公理（目標）を明確にし、そのためにAIに求められる能力（クエリ）を特定し、そしてAIがその能力を実際に持っているか（経験的検証）**を示す、という一連のステップを提供します。

結論:

生成的社会選択は、生成AIがもたらす無限の可能性と、民主主義理論が要求する厳密な正当性との間に、堅牢な橋を架けるための設計思想です。このフレームワークを通じて、私たちは、単に技術的に目新しいだけでなく、真に民主的で、スケーラブルで、そして社会の複雑なニュアンスを捉えることができる、次世代の参加型システムを構築していく道筋を得ることができるのです。