質問自然度データセット
キーワードを取らない質問と、1つとる質問について先に実装した
2つとる質問はマダ
-----
データ1: 0〜1件のキーワードを取る質問600件
データ2: (未使用)データ1と同じ条件で6000件
データ3: データ1を使ってモデルを学習して0.1〜0.9のものだけ選ぶ能動学習
データ4: 2つのキーワードを取る質問文に対して、片方をXで埋めたもの
質問自然度データセット
人間の入力
それに対する質問
不自然である(0)/自然である(1)/空欄(0.5)
悩む(1)/悩まない(0)
学習データがなし崩し的に集まったので学習部分を作る
特徴量
本体
前後文脈
出現位置
元データテンプレに入れ忘れた
キーワード、質問ID
これだけ出力して追加で貼りこもう
特徴量生成
キーワード本体の特徴量
キーワードで入力を検索して最初の出現位置を見つける
前後を取る
キーワードの存在していない質問に対しては、文章全体と、文頭・末尾を使った
今は適当にチョイスした文章に対して全ての質問を聞いている
だから数がやたら多い
600件作ってみたけど、元文章の量は13件
今は入力文固定で、その中のキーワードを選んで質問候補を作っている
でもこれだと、キーワードが存在しない入力の場合や、キーワードはあるけどイマイチな場合(「w」とか)はどうなる
「(この入力をスルーして、以前の入力に対して質問)」という選択肢があるべきか?
次は能動学習?
イマイチと判断したものが使われなくなると学習データも集まらないよなぁ
利用と探索のトレードオフ
手抜きでイプシロングリーディでいいか
→とりあえず能動学習にして、<0.1と 0.9<を捨てるだけにしておいた