コーパス - suto3の大福帳

コーパス

1980年代後半からコーパスから言語処理に有用な知識を自動抽出する研究が盛んになり、コーパスの整備も精力的におこなわれてきた。

コーパスには

何も情報を付与しない未加工コーパスと

様々な情報を付加したタグ付きコーパス

がある。

コーパスを構築する上で重要な点は、

量が十分あること、

付与する情報の品質が高いこと、

誰でも容易に利用できること

である。

大規模な言語資料のデータベースのことである。

データベースとしては、話し言葉ではラジオ、テレビ、スピーチなど、書き言葉では雑誌、新聞、書物などから取り出して作成している。

このようなデータベースはオーセンティックなものを使用し、コーパスのために話されたり書かれたりすることはない。

有名なコーパスには、

Brown Corpus,

COBUILD Band of English Corpus,

The British National Corpus,

The Bank of English Corpus

などがある。

コーパスを使用して単語の頻度を記した辞書が作成されたり、また、ある語がどのような語と結びついて使われやすいか、などを研究できる。

このような研究はコーパス言語学とも呼ばれる。

最近では古期英語だけまとめたコーパスや、学習者の話しことばだけを集めたコーパスなども出現している。