コーパス
自然言語処理の研究やアプリケーションのため、目的をもって収集された大量のテキストデータを指す
コーパスの仕組み
まず単語に分割し、各単語にIDを振り、単語-ID、ID-単語の対応リスト(辞書)を作る