データを分ける意味
具体的な実践例
全データの1割を「手元にないデータ」という扱いで分けておいて、残り9割でモデルを学習。そのモデルの性能を残り1割のデータでどの程度の正解率が出るかで計測する。
理由を知らないまま作法としてやってると「わけなくていいんじゃないか」という気持ちになる
「作法としてこうするもんです」ではなくて、何を達成したいのかから考えるように教えるとよいのかも。
達成したいことは「手元にないデータ」に対してよい性能を出すこと
「手元にないデータ」に対してよい性能が出るかどうかは今手元にデータがないので知りえない
だから一部のデータを取り分けて「これを今手元にない、将来手に入るデータだということにしよう」とする。
「手元にない」ということにしたのだから当然、学習時にそれを使えるわけがない。
物理的には使えてしまうけど「これは手元にないデータってことにしているんだ」という前提を理解していれば使えないことがわかる。