TTTCの「離れ小島クラスタ」問題
https://gyazo.com/7f498e63c2d20ba6a814393d20be2baa
観測事実: 離れ小島クラスターにfewshotで与えた例がいくつも重複して出てしまっている。
https://gyazo.com/3d86c6eabef670dd9dde2feae56594e2
推測:
うまく意見抽出できないインプットデータに対して[]ではなくfewshotの例を返してしまうことがある
多分UMAPの挙動として、ほとんど同じ内容のデータ点がたくさん重なると「密度が高いクラスタがある」と判断する その結果、周辺の空間解像度が上がることによってこういう離れ小島の見た目になるのだと思う。
対策:
このままユーザに見せるとほとんどのユーザは「この離れ小島はなんだろう?」と反応して、真っ先に見ることになる
離れ小島は「LLMへの指示が適切でないことによって誤って抽出された意見データ」なので、意見の可視化としては取り除く方がいい
「うまく意見を抽出できないデータ」の影響なのでそのデータに対する対処をfewshotに加えてやる
具体的にはこのクラスタの点をクリックしてLLMへの入力データを確認し、抽出すべき意見のない発言なら[]、そうでないならその意見を返答としてプロンプトのfewshotに加えて抽出フェーズからやり直し
クラスタ全部をやる必要はない、実感として1〜2件足すだけで解消する感じ
多分[]をfewshotに追加することで「[]にするかどうか」の境界線が移動するんだと思う
余談だけどそもそもextractionの直後でuniqueしてしまう方がいいんじゃないかな...