初回の回答を見て第2回・第3回の設問をAIが自動で作り替え、仮説検証ループを回し続ける

結論からいうと――**「初回の回答を見て第2回・第3回の設問をAIが自動で作り替え、仮説検証ループを回し続ける」**という発想は、

1. 商用では部分実装まで来ており、

2. 研究ではほぼフルに近い枠組みが複数存在します。

ただし、配信→サンプリング→設問再設計→意思決定までを“完全自動”で長期に運用するプロダクトは、まだ一般的ではありません（近い方向には確実に動いています）。

いま既に「できている」こと（商用）

単一アンケート内での動的フォローアップ（自動追加質問）

Qualtrics「Conversational Feedback / AI Adaptive Follow-up」：自由記述が曖昧だとAIが追問を生成し、より行動可能な内容を引き出す機能。(Qualtrics)

Typeform「Clarify with AI」：回答内容に応じて最大2つの追問を自動生成。(help.typeform.com)

Maze / Sprig / UserTesting 等：AIがオープン回答に自動追問・バイアス検知・要約を行う（製品仕様として明記）。(help.maze.co)

「会話型」要約・意思決定支援（設問最適化そのものではないが後工程を加速）

Medallia「Ask Athena」：既存データへの自然言語質問→要約・グラフ・洞察提示。(medallia.com)

つまり「一回の調査の中で“聞き返す”」ことは既にプロダクト化。

ただし**“次の調査波（第2回）を自動で設計・配信”**までは、主要ベンダーでも限定的です。

研究・方法論としては「ほぼ揃っている」こと

適応型質問設計の古典と実用

CAT（Computerized Adaptive Testing）/ IRT：回答に応じて次の設問難易度を動的選択。ヘルスアウトカム（PROMIS など）でも実運用。(Assessment Systems (ASC))

ACBC（Adaptive Choice-Based Conjoint）：選好を学習しながら提示案を絞る適応型コンジョイント。(Sawtooth Software)

ベイズ的・能動学習ベースの“次に何を聞くか”最適化

ベイズ実験計画 / Deep Adaptive Design：期待情報量や意思決定価値に基づく逐次設計。(arXiv)

BACE（Bayesian Adaptive Choice Experiments）：選好推定のために動的に課題を更新。(Linh T. Tô)

能動学習での次質問選択（AAAIなど）：回答履歴に条件づけた質問選択。(AAAI Open Access Journal)

調査運用側の「アダプティブ／レスポンシブ・デザイン」

収集途中のパラデータで設計を変える（配信モード・インセンティブ・配分など）実務枠組み。(rss.onlinelibrary.wiley.com)

LLMでの設問生成・適応

LLMが設問を生成・文脈適応する手法（ACM 2025 ほか）。(ACM Digital Library)

Qualtrics上での動的設問生成システムの作り方を示す方法論論文。(Wiley Online Library)

群衆×適応の新手法

Crowdsourced Adaptive Surveys：NLPと適応アルゴリズムで設問を群衆起点に最適化。(Cambridge University Press & Assessment)

では、何がまだ「足りていない」のか？

あなたの構想の肝は、“意思決定（投資可否・改善優先順位など）をゴールに、波を跨いで調査設計を自動更新する**こと。

現状のギャップは次のあたりです。

1. 長期・多波テクノロジーの一体化

設問生成だけでなく、サンプリング設計・配信制御・停止規則・有意性/EVPI基準までをワンループで持つ“リサーチ・オートパイロット”は、一般製品では未成熟。

2. 品質・倫理ガードレール

偏り拡大、ハルシネーション、被験者保護への配慮が不可欠（業界団体も注意喚起）。(norc.org)

3. ROI連結

Xデータ×Oデータを繋ぎ、意思決定価値（例：解約率低下・LTV増）で止め時/次に聞くべきことを決める仕組みは、実装事例がまだ限定的。

もし作るなら：MVP設計の叩き台（実装順）

1. ゴール定義：意思決定単位（例：機能Aの優先度、価格帯の絞り込み）と停止基準（EVPIや不確実性しきい値）を明示。

2. Wave 1：汎用フレーム（NPS/理由、主要課題、選好軸）＋探索的設問（自由記述・MaxDiff等）。

3. オンライン適応器：

a) 追問生成（商用機能を活用：Qualtrics/Typeform/Maze 等）で深掘り、

b) 次設問選択をベイズ設計/能動学習（期待情報量最大化、または意思決定価値最大化）で決定。(Qualtrics)

4. Wave 2以降の自動再設計：

選好推定にはACBC/BACEを適用、自由記述にはLLMでテーマ仮説→検証設問を自動起案。(Sawtooth Software)

5. サンプリング最適化：レスポンシブ・デザインの原理で層別配分・モード・インセンティブを逐次調整。(rss.onlinelibrary.wiley.com)

6. ガバナンス：AIの追問・自動再設計に監査ログ、センシティブトピックのガードレール、A/Bの人間承認ゲートを必須化。(Qualtrics)

まずは Qualtrics（Adaptive Follow-up）やTypeform（Clarify with AI）を“追問エンジン”に据え、

ベイズ実験計画/能動学習でWave 2の設問を自動生成する薄いレイヤーを外付けするのが現実的です。

ひとことでまとめ

部分機能は既に商用化（会話型の自動追問、AI要約）。(Qualtrics)

学術的にはフルセットの部品（CAT/ACBC/ベイズ設計/能動学習/LLM設問生成）が揃っており、統合すればあなたの構想は十分実現可能。(Assessment Systems (ASC))

一方で**“完全自動・多波の意思決定ループ”は、まだメインストリーム製品化前夜**。この領域は今が狙い目です。

---

ACBC・ベイズ実験計画・BACEを「腹落ち」するまで解説

ここでは、適応型の選好調査を支える三つの考え方――ACBC（Adaptive Choice-Based Conjoint）、ベイズ実験計画、BACE（Bayesian Adaptive Choice Experiments）――を、数式や専門用語に頼りすぎず、けれども“中身はちゃんとわかる”レベルまで噛み砕いてお話しします。読み終わったときに、「なぜそれが効くのか」「どの場面でどれを選ぶべきか」「実装の勘所はどこか」まで見通せる状態を目指します。

1) ACBC（Adaptive Choice-Based Conjoint）：人が本当に考える順番に寄り添う共創型のコンジョイント

従来のCBC（Choice-Based Conjoint）は、いくつかの“商品案のセット”を提示し、「どれを選びますか？」を何度も繰り返す方式でした。良い推定器ではあるものの、現実の意思決定プロセスとズレが出やすい箇所がありました。たとえば、人はまず「これは絶対イヤ」「これだけは欲しい」のように、**スクリーニング（ふるい落とし）**を行い、それを通過した候補だけを真剣に比較します。ACBCはここに寄り添います。典型的な流れは三幕構成です。

最初の幕は“自分で組み立てる”段取りです。システムが属性とレベル（たとえばスマホなら容量・カメラ・価格帯など）を提示し、回答者に「自分が買いたい理想構成」を一回作ってもらいます。いわゆる BYO（Build-Your-Own）段階です。この作業を通じて、本人の基準線が自然と言語化され、次の問いに効く“文脈”が手に入ります。

第二幕がスクリーニングです。ここでは「この組み合わせなら検討する／しない」を素早く判定してもらい、さらに「この条件が入っていたら即アウト」「この条件が無いと買わない」のようなアンアクセプタブル／マストハブを拾います。ここで得られるのは、単なる好みの強弱ではなく、「地雷」と「絶対条件」という論理的な境界です。従来のCBCは連続的な効用差を前提にしますが、ACBCは離散的なドアの開閉を先に学習するため、現実の購入可否の肌感に近づきます。

第三幕が“トーナメント”です。スクリーニングを通過した候補に焦点を絞り、そこからは従来の選択課題に近い比較を繰り返します。ただし、ここでも適応が働きます。直前の選択から推定された“あなたにとっての境界線”を踏まえて、次の比較が調整されます。たとえば、価格に極端に敏感だと分かった人には、価格差を微妙に詰めたセットを出し、逆にカメラ性能にこだわる人には、その周辺のトレードオフが際立つ組を増やしていく。結果として「無駄な問い」が減り、同じ質問数でも学べる情報量が大きくなります。

推定の裏側では、個人レベルの“部分効用（パートワース）”を階層ベイズやHB推定で学びます。面白いのは、ACBCではスクリーニング段階の“可／不可”という硬い情報と、トーナメントでの“どっちが良いか”という柔らかい情報が融合する点です。硬い情報はモデルに強い制約を与え、柔らかい情報は微細な好みの曲面を磨きます。これが合わさることで、購入確率の切れ目がシャープになり、「市場でどの構成が残り、どれが脱落するか」をより現実的に予測できるようになります。

実務的な利点は三つあります。第一に、回答者体験が自然であること。人は“まず門前払いを決める”という思考の癖を持ちますから、ACBCの流れは心理的負担が軽い。第二に、モデルが外れにくいこと。アンアクセプタブル／マストハブの知識が、極端な外挿を抑え、荒唐無稽な高効用案の暴走を防ぎます。第三に、施策解像度が上がること。「価格を2000円下げるか、カメラの夜景性能を一段上げるか」といった、実務の悩みに直結する問いに対して、ACBCは“検討集合に入る確率”と“入った後の勝率”を分けて示唆できます。前者はスクリーニングの壁、後者はトーナメントでの競争力に対応します。

もちろん欠点もあります。設計が雑だと、スクリーニングで“落とし過ぎる”問題が出ます。回答者が「これもダメ、あれもダメ」と門を固くしすぎると、後半で比較すべき候補が痩せ、学習が進みません。逆に“何でも検討可”と答える人が続くと、ACBCの旨味が出にくい。ここで効くのは、初期のBYOで“現実的な理想”を促す微細なガイダンスと、スクリーニング中に“境界を揺さぶる”ための巧妙な例題です。設計者の腕の見せ所は、回答者を窮屈にも放任にもせず、「自分の筋の通った主張」を程よく引き出す誘導にあります。

2) ベイズ実験計画：問いを“作る”こと自体を最適化する

通常、調査は「質問を作って→配って→解析する」という直線工程ですが、ベイズ実験計画はここにフィードバックを差し込みます。「次にどの質問を出すと、意思決定にとっていちばん価値のある情報が増えるか？」を、事前分布→観測→事後分布という更新の連鎖の中で選ぶ考え方です。重要なのは、“統計的に精密になること”そのものを目的にしない点です。目的はビジネスの決断の質を最大化することであり、だからこそ、「情報量の最大化」と「意思決定価値の最大化」を使い分けます。

イメージしやすいのは、懐中電灯を持って真っ暗な部屋を探索する場面です。部屋のどこかに宝箱（最適な価格や最適な機能構成）があるとしましょう。ベイズ実験計画は、「次にどこを照らせば、宝箱のありかに関する不確実性がいちばん減るか」を計算して、懐中電灯の向きを決めます。ここでの“計算”は、候補となる質問それぞれについて、あり得る回答をシミュレーションで先取りし、その結果どう事後分布が締まるのか、あるいは意思決定がどう変わるのかを期待値で比べる作業です。言い換えると、質問Aを出した未来・質問Bを出した未来を頭の中で何百回も試写し、「平均するとどっちが得か」を選ぶのです。

設計の評価軸には二系統あります。ひとつは情報基準で、たとえば“エントロピー（曖昧さ）をどれだけ減らすか”“事後分布のばらつきをどれだけ縮めるか”“フィッシャー情報の行列式（D最適）をどれだけ大きくできるか”のような、統計の純度を上げる指標です。もうひとつは意思決定価値基準で、「この問いを挟むことで、最終的な価格設定や機能優先度の判断ミスに伴う損失がどれだけ減るか」を直接評価します。後者は“価値のある無知”を許容します。つまり、売上にほぼ影響しない枝葉の不確実性はあえて放置し、利益に響くボトルネックだけを集中的に潰す、という態度です。

実装の現場では、毎回厳密な計算をやると重すぎます。そこで、現在の事後分布から**サンプル（パラメータの仮の世界）**を複数引き、それぞれの世界で最もうるさく間違えそうなポイントに光を当てるという近似がよく使われます。いわゆるトンプソン・サンプリング的なノリです。たとえば、価格感度の分布が広がっているなら、次の問いでは価格の間隔を詰めた比較を増やし、逆に価格がもう固まっているなら、別の属性にスイッチする。これを数十～数百人単位の小さなバッチで回すと、調査は“走りながら賢くなる”状態に入ります。

注意点は三つあります。第一に、探索と搾取のバランスです。早く確かめたい命題に寄りすぎると、モデルは確信を強める一方で盲点を作りがちです。あえて“意外な選択肢”を混ぜる少量の探索は、長い目で見て意思決定の耐久性を高めます。第二に、現実の制約です。質問は理屈の上では自由に作れますが、属性レベルの組み合わせには法規や製造制約、ブランドポジションの壁がある。ベイズ実験計画は、こうした禁止・優先・在庫・価格枠といった制約を組み込んだ上で動かす必要があります。第三に、止め時の定義です。いつまでも問えば情報は増えますが、コストもかかる。だからこそ、EVPI（情報の期待価値）や意思決定境界の反転確率が閾値を下回った時点を“打ち切り条件”として最初から明文化しておくのが健全です。

3) BACE（Bayesian Adaptive Choice Experiments）：選択課題そのものを“学習用に最適化”する

BACEは、上で説明したベイズ実験計画の原理を、選択課題（Choice）にきわめて具体的に落とし込んだ枠組みです。平たくいえば、「次にどんな“選択肢の並べ方”を提示すれば、いちばん学びが進むか」を、一人ひとりの回答の流れに合わせて逐次決めます。ここがACBCとの一番の違いです。ACBCは“意思決定プロセス（スクリーニング→比較）に沿う体験設計”が肝で、適応はその体験を気持ちよく回す調味料として使われます。対してBACEは、最初から最後まで選択課題の組成を統計的に最適化すること自体が主目的です。

舞台裏ではこう動きます。まず、個人の部分効用ベクトルに事前分布を置きます。最初の数問で粗い手がかりを集め、事後分布が手に入ったら、その分布を予測器として使い、次に出すべき選択課題の候補（たとえば3案×複数セット）を発電します。候補ごとに、回答者が取り得る選択を確率的にシミュレートし、その結果で事後分布がどう狭まるか、あるいは意思決定がどう改善されるかを見積もります。最後に、期待情報量や期待価値の最大な一問を採用し、実際に提示する。回答が返ってきたら、また事後更新、また最適化。これを小刻みに繰り返すのがBACEです。

この方式の強みは、サンプル効率と個別化にあります。情報の取れない“凡庸な比較”を避け、今その人の学習に最も効く“エッジの効いた比較”を連打できるため、同じ10問でも得られる識別力が段違いになります。また、回答者の個性に合わせて“効く問い”が変わるのもポイントです。価格に鈍感な人には価格差を広げ、デザインに敏感な人にはデザイン周りの微妙な捻りを増やす、といった調律が自然に行われます。実務では、1人あたりの質問負担を減らしても精度を落とさない、または同じ負担でより細かい差を見分けるという二つの戦略を選べます。

一方で課題もあります。第一は設計の偏りです。適応が強すぎると、「その人がたまたま初期に示した傾向」を過信し、別の可能性を十分に試さないまま確信を固めてしまうことがあります。これを防ぐには、事後分布の不確実性が大きい軸については、必ず一定の探索を混ぜる“温度設定”が必要です。第二は集計の整合性です。人ごとに出題が違うため、データは不均衡で欠測のように見えます。ここで効くのが階層ベイズの枠組みで、個人差と集団の共通構造をうまく“借景”し合うことで、適応で生じたギザギザを滑らかにします。第三は実装コストです。逐次設計は、バックエンドにそれなりの計算機能を要します。すべてを厳密にやる必要はなく、候補セットのプールを先に用意しておき、当面の事後分布に合わせてプールからの最適抽出に留めるだけでも、十分な性能向上が得られます。

実務の温度感を伝えるために、具体例を一つ。たとえばコーヒーメーカーの新製品を設計する状況で、属性は価格、抽出方式、清掃のしやすさ、サイズ、ブランド保証とします。BACEなら、初手は広くばらまいた比較を出し、二手目以降は、その人の反応に応じて“価格×清掃性”の対立軸に寄せるか、“抽出方式×サイズ”の微妙なトレードオフに寄せるかを切り替えます。数問後には、個人ごとの“効用地形”の凸凹が露わになり、製品案A・B・Cの勝率差だけでなく、「Aが勝つのは清掃性が門を通った後に、サイズの許容が効いているから」といった物語のある解釈が手に入ります。ここから、設計・価格・SKU編成の実務判断に直結させるのが王道です。

まとめ：三者の位置づけと使い分け

ACBCは、人の意思決定の段取りに合わせて“検討集合づくり→精密比較”を自然に体験させる設計思想です。現実感の高い可否境界を捉えたい、購入に至る“門”を見極めたいときに強い。一方で、ベイズ実験計画は、問いを作ること自体を数理最適化する哲学です。予算や期間が限られる中でも、“意思決定の価値”に直結する不確実性だけを狙い撃ちで潰したいときに真価を発揮します。BACEはその哲学を選択課題に特化して実装した逐次最適化のワークホースで、サンプル効率を極めたい、個々人に合わせたシャープな学習を回したい場面で頼りになります。

実務での立ち上げは、ACBCで現実の検討集合を掴み、その知見を初期の事前分布に落として、BACE／ベイズ計画で後半戦を高速化、という合わせ技が扱いやすいはずです。最初の数百サンプルはACBCで“門”と“勝ち筋”の骨格を固め、続く数百サンプルはBACEで「あと少し詰め切れていない軸」に照準を当てる。止め時はEVPIや意思決定の反転確率で明示し、探索（未知を広げる）と搾取（分かっている優位を磨く）の温度を管理する。こうして“調査が意思決定の速度と精度を同時に上げる”状態を、現場のワークフローに埋め込むことができます。

最後にもう一歩踏み込むなら、自由記述やレビューのテキストから仮説候補（未知の属性・言語化されていない評価軸）を抽出し、それを属性候補プールとしてBACEの出題生成に混ぜ込むと、質的発見と量的検証のループが閉じます。ここまで来ると、あなたが思い描いている「初回の結果で第2回を作り替え、仮説検証のループを自走させる」仕組みが、単なるアイデアではなく、日常運転できる調査エンジンとして立ち上がります。