Crowdsourced Adaptive Surveys
PDF
Yamil Ricardo Velez
ひとことで
CSAS(Crowdsourced Adaptive Surveys)=参加者の自由記述をLLMで設問化し、マルチアーム・バンディットで“出す設問”をリアルタイム最適化する「自己進化型アンケート」。新しい論点やコミュニティ固有の関心を取りこぼしにくくします。
何が新しい?
CATとの違い:CATは“既存スケールの精密測定”用。CSASは設問プール自体を参加者入力から増殖させ、未知の離散的論点を捕捉。
Wiki調査との違い:Wikiは主にペア比較。CSASは連続/順序尺度の評定(重要度や正確さなど)を目的に、バンディットで探索⇔活用を自動調整。
仕組み(パイプライン)
1. 自由記述を集める
2. LLMで設問化(1文要約など)
3. フィルタ:埋め込みで近傍検索→重複除外(閾値0.90)/毒性除去
4. 参加者が評定:自分の設問+既存からk件
5. 選択最適化:Gaussian Thompson Sampling(GTS)で平均スコアが高い設問の提示確率を上げる(ただし確率フロア0.01で新規・少数も残す)
どの質問を出すかをアダプティブにするって発想はPolisの質問提示順序の仕組みとも関連しているnishio.icon
6. 推定:提示確率の逆数でIPW補正して平均などを推定
実証から見えたこと(要旨)
Issue Salience(N=820, 2023/9/11–13)
生活費・医療・景気など生活直結の経済・医療系が最上位。Gallupの固定カテゴリより、参加者生成項目(例:プライバシー保護、候補者の透明性、メンタルヘルス)が上に来ることが多い。
Latino向けミスインフォ(N=319, 2023/7/6–7)
実際の出来事や党派ステレオタイプは“正確”寄りに、明白な虚偽は低評価。しかも参加者生成の主張が、既存ファクトチェック起点より**“信じられやすい”項目の発見に強い**。
ローカル政治
ローカルでも全国級論点が紛れ込む一方、地域特有の懸念も自動で掘り起こせる。
強み
適応速度:新話題が出ても即プールに取り込み
帰納的設計:研究者の想定外を拾える
参加型:被験者が調査を共創
コスト効率:少数スロットでも多数設問を探索(推論コスト見積りは1人あたり約$0.005–$0.01程度)
留意点・限界と対策
“遅着”設問が不利:確率フロア、初期探索枠、バッチ導入
類似度閾値の調整:低すぎ→過剰削除/高すぎ→重複残存(論文は0.90)
多数派偏り:コンテキスト・バンディットや層別割当、deconfounded TSで緩和
サンプル代表性:便宜サンプルの特性を明示、必要なら追試
安全性:モデレーションAPI必須、プロンプトと拒否基準の監査ログ
実装の最小レシピ(あなた向け)
固定バッテリー+動的スロットmを用意
フロント:自由記述→要約確認→評定マトリクス(自作+k件)
バック:埋め込み近傍5件をRAGで参照→LLMで正規化設問→重複・毒性フィルタ→Qバンク
配信:GTSで提示確率更新(指標=重要度/正確さ/遭遇頻度など)
推定:IPWで平均・差分、群間異質性は属性を文脈に入れたバンディットで
まとめ
CSAS=「参加者が作る設問 × LLM整形 × バンディット最適化」。固定設問では見落としがちな論点を、短尺で、動的に、参加型で拾い上げる実践的フレームです。