コーパス
1980年代後半からコーパスから言語処理に有用な知識を自動抽出する研究が盛んになり、 コーパスの整備も精力的におこなわれてきた。 コーパスには
何も情報を付与しない未加工コーパスと
がある。
量が十分あること、
付与する情報の品質が高いこと、
誰でも容易に利用できること
である。
大規模な言語資料のデータベースのことである。
データベースとしては、話し言葉ではラジオ、テレビ、スピーチなど、書き言葉では雑誌、新聞、書物などから取り出して作成している。
有名なコーパスには、
Brown Corpus,
COBUILD Band of English Corpus,
The British National Corpus,
The Bank of English Corpus
などがある。
コーパスを使用して単語の頻度を記した辞書が作成されたり、また、ある語がどのような語と結びついて使われやすいか、などを研究できる。
このような研究はコーパス言語学とも呼ばれる。
最近では古期英語だけまとめたコーパスや、学習者の話しことばだけを集めたコーパスなども出現している。