ブロードリスニングの4つのデータ型
ブロードリスニングのデータの形には大きく分けて4つある
だが特に新しいシステムのデータ構造に関してはまだ世の中の理解度が低いので、しばしば従来型のデータ型(≒アンケート)と混同される
まとめ画像
https://gyazo.com/4575b88c1ea56b9da058b0fa1ed16087
https://gyazo.com/22e55affa2df0599cd2273513ef018ff
K件の意見(statement)があり、それに対してN人が賛成・反対・中立の投票をしたデータ
https://gyazo.com/809c49607caedc24a8404bf07bd98548
N人に対して、それぞれインタビュアーが対話をして情報を引き出したデータ
LLM以前はインタビュアーのコストが高すぎたのであまり大規模に行うことはできなかったが、LLMによって「AIインタビュアー」が実現可能になり、用途が広がった
選択肢アンケート型
https://gyazo.com/2b4f88c964c4afec4977ce6242d9295c
LLM以前から広く行われていた「大勢から情報を集める方法」
選挙の投票も広い意味でこれに含まれる
LLMがなくても容易に集計できたため、LLM以前の世界ではこの種のアンケートを数量的に集計することや、選挙の投票で多数決をすることがデファクトスタンダード化した 多数決は集計方法として問題があることが指摘されてきた。書籍「多数決を疑う」などで解説されている 「この種の量的研究だけではダメで、質的研究が大事だ」という議論もあったが、質的研究のコストが高すぎてなかなか大規模に実行することはできなかった 自由記述アンケート型
https://gyazo.com/ebcd32829200d13c89602295082777b7
LLM以前に「選択肢アンケート」で拾いきれない情報をなんとか拾おうとした結果、自由記述欄を設けることが行われた
が、そこに書かれたものをどう分析するかは長らく大きな課題だった
LLMの登場によって、格段に分析が楽になった
広聴AIもこのデータ型を想定している
Polis型について
Polis型は選択肢アンケート型と見なすことができる
実際のPolisのシステムを使った場合、質問文を回答者が追加できる(設定によってON/OFFできる)
ここが従来のアンケートと違うところ
選択肢アンケートで拾いきれなかった意見を、自由記述アンケートのように拾い上げることもできる
つまり二種類のアンケートのハイブリッド型とみることができる
この自由記述の投稿は選択肢アンケートの質問項目になる
答えやすい選択肢式の質問に答えている間に自分の意見が整理され、それが選択肢式の回答でアウトプットしきれなかったときに追加の意見として提出される
一方で一つのテキスト欄に過不足なく自分の意見を整理して書くことは大部分の人間にとって難しいタスクであり、しばしば不完全な(投稿された文字列だけを見て他人が内容を理解できない、投票できない)投稿がされる
インタビュー型について
つまりAIが必要な情報を聞き出し、それを整理して提出することを行う
提出者が均質なAIになるため、どのようなものを提出してほしいかをプロンプトに書くことで異なった人との会話からでも粒の揃ったデータが得られる
この手法はブロードリスニングの手法の中でも比較的新しい手法であって、試行錯誤の余地がある
会話をするAIがどのようなプロンプトで動くか(何を考えて会話を進めるか)
チャットログから何を抽出するか(会話から何を読み取るか)
「会話中に抽出する」「会話後に抽出する」の二通りある
「いどばたビジョン」ではチャット中にチャットのスレッドと並行して抽出が行われている Xでこのインタビュー型を選択肢アンケート型と混同している意見を見て、この記事を書くきっかけになった
冒頭で賛成か反対かをAIインタビュアーが質問することで賛成反対投票の一種と認識してしまったのかもしれないが、話していくとそうでもないことがわかると思う
この質問に対する最初の「はい」/「いいえ」の答えは質問者の「なぜそう思うのか?」「そうでない場合はあり得るか?」といった質問によって「開かれた」ものにすることができ、これによって詳細な説明と探究を促すことができる。