コーパス
実際に使用された言語表現を集積、整理した言語データ。
1980年代後半からコーパスから言語処理に有用な知識を自動抽出する研究が盛んになり、 コーパスの整備も精力的におこなわれてきた。
コーパスには
何も情報を付与しない未加工コーパスと
様々な 情報を付加したタグ付きコーパス
がある。
コーパスを 構築する上で重要な点は、
量が十分あること、
付与する情報の品質が高いこと、
誰でも容易に利用できること
である。
大規模な言語資料のデータベースのことである。
データベースとしては、話し言葉ではラジオ、テレビ、スピーチなど、書き言葉では雑誌、新聞、書物などから取り出して作成している。
このようなデータベースはオーセンティックなものを使用し、コーパスのために話されたり書かれたりすることはない。
有名なコーパスには、
Brown Corpus,
COBUILD Band of English Corpus,
The British National Corpus,
The Bank of English Corpus
などがある。
コーパスを使用して単語の頻度を記した辞書が作成されたり、また、ある語がどのような語と結びついて使われやすいか、などを研究できる。
このような研究はコーパス言語学とも呼ばれる。
最近では古期英語だけまとめたコーパスや、学習者の話しことばだけを集めたコーパスなども出現している。
corpus
テキストコーパス(text corpus)
言語資源
計算言語学(Computational Linguistics)
辞典
リファレンス(Reference)
言語資料学
コンコーダンス、コンコルダンス(concordance)
コーパス言語学(corpus linguistic)
自然言語処理(NLP : Natural language processing)
NLTK(Natural Language Toolkit)
翻訳メモリ(TM : translation memory)
ツリーバンク(Treebank)
音声認識(speech recognition)
ジップの法則、ジフの法則(Zipf's law)
集合体
統合
情報提供
コーパス - Wikipedia
Text corpus - Wikipedia