1 Introduction: Essential Model Evaluation Terms and Techniques

how do we know that it(* =model) generalizes well to unseen data?

「訓練で見ていないデータについて十分に汎化されたとどのように知るのか」

（感想）どうやら同じ意味の言葉っぽい: unseen, future, generalization

異なるアプローチを要求する3つのサブタスク

ホールドアウト法の2つの問題についてこのあと見ていく

1つ目の問題：独立性の侵害とサブサンプリングによるクラス割合の変化

対処法がStratification

2つ目の問題：悲観的なバイアス + 全データを使って訓練して対処できるがその場合汎化性能が分からなくなる

confidence interval（信頼区間）

normal approximation（正規近似？）

信頼区間についてはSection 2で詳細に議論

1.6で指摘した問題に一部アプローチしていそう