動きの抽出と質問自然度判定の衝突
「動きの抽出」で動詞を含むキーフレーズが抽出された場合に、原形に直してある場合があり、その場合、直前の入力からキーフレーズを文字列検索しても一致する文字列が見つからない 解決方法
A: 文字列ベースでやってる処理を単語ベースに変える
過去に作った教師データが使えなくなるので、改めて学習データを作らないといけない
B: 見つからないという情報を特徴量に乗せる
過去の教師データを温存しつつ、新しい状況をケアできる
しかし、そもそもこの新しい状況についての学習データは皆無
C: 特徴量抽出で例外が出た場合に上流で自然度0.5とする
データがないのであれば0.5にしとくのでいいだろ、という路線
今回はCにする
将来、データを増やしたりするタイミングで特徴量を工夫する
既存のデータで能動学習しながら、新しい特徴量算出方法のためのデータも溜めていく
新しいデータが溜まった段階で古いフォーマットのデータを捨てる