直接引用モデル
チャットボットが会話文を生成するのではなく、単純に書籍などの一節を引用する、というモデル 2018-09-30
学習でやろうとしていた
カギカッコ、中黒、句点などで区切るルールベースに変えた
結局のところ「途切れた文章」が生み出されるのが一番頻度の高いバッドパターンなので句点で区切るだけにした
どちらかというと、この「一文」を入力データとして受け取って、指示語を削るなどして出力するseq2seqのほうが筋が良いのでは 初期値として素通しにしておく
単語ベース入力、削除する単語の時は空文字列を出力
っていうか「素通しするか削除するか」の二値分類がいいのか?
-----
引用文自体のモデル
引用開始点のモデル
引用終了点のモデル
特徴量
キーフレーズを含む 1/0
単語境界である 1/0
適度な長さである 適度の定義は何?
直前に句点がある 1/0
開始点・終了点のモデルはローカルな特徴量だけで計算できるものにしたらいい
周囲の数単語の文脈
引用文の長さの適切さは、引用文自体のモデルとして作れば良い
引用文自体の良さのモデルはLSTMで作る
両方確率モデルにした上で掛け合わせて使えば良い