『自然言語処理の基本と技術』第1章まとめ
#『自然言語処理の基本と技術』
自然言語処理の概要
/icons/hr.icon
1-1 自然言語処理とは
自然言語を処理する技術や学術分野の総称
逆に「自然」ではない言語って?
コンピュータによって使われる言語 = マークアップ言語、プログラミング言語
自然言語は曖昧=はっきりと決まらない
日本語だけでなく、英語も曖昧性を持つ
「日本語がは曖昧だ」と言われる理由
主語などの構成要素を省略する傾向が強い
日本人は明言を避けるという文化的な背景
日本語という言語そのものの本質とはあまり関係がない
tanaken0515.icon 本質って?
/icons/hr.icon
1-2 自然言語処理の応用例と利用技術
table:例と技術
No. 応用例 利用技術 関連する章
1 日本語入力ソフト かな漢字変換 『自然言語処理の基本と技術』第3章要点
2 機械翻訳システム 機械翻訳
3 検索エンジン 検索, スペル訂正, クエリ提示
対話システム
処理の流れ:音声認識 -> 形態素解析,構文解析 -> 意味解析 -> 対話処理 -> 応答生成 -> 音声合成
質問応答システム
処理の流れ:質問解析 -> 情報検索 -> 情報抽出 -> 回答選択
/icons/hr.icon
1-3 自然言語処理の歴史
@米国
機械翻訳
ロシア語やフランス語 -> 英語 の翻訳
「ロシア語を見たときに『この文章はもともと英語で書かれていたが、奇妙な記号によって暗号化されている。これを復号化しよう』と考えても良いのではないか」
もともと理解できる言語で書かれていたものが何らかの影響で異なる言語に変わってしまった
雑音のある通信路モデル(noisy channel model)
統計的機械翻訳や統計的言語処理タスクの基礎的な考え方となっています
対話型
BASEBALL by 関数型言語LISP
野球の試合に関する情報を記録し、自然言語の文での問い合わせに対して答える質問応答システム
ELIZA
テキストベースの対話プログラム
SHRDLU
画面上の仮想世界における「積み木」に関する対話を人間とコンピュータが行なう自然言語理解システム
Lunar
月から持ち帰られた石に関する対話システム
@日本
機械翻訳
1980年代、世界的にみても盛んに研究されていた
日本語の科学技術論文を英語に翻訳するシステム
日本語入力
かな漢字変換の日本語入力装置を商用化(東芝)
ワープロやパソコンの普及 -> ワードプロセッサ・ソフトウェア(一太郎)の普及
形態素解析
JUMAN:人手により作られた辞書や規則をベースに開発。
ChaSen:JUMANのVersion 2.0 をベースに開発。
統計的な手法によって、自動的にコスト推定する点が当時革新的でした
MeCab:ChaSenをベースに開発。
CRF(条件付き確率場)によってコスト推定する汎用テキスト処理エンジン
汎用性の高さと解析速度の速さ、そして高い解析精度が特徴
KyTea
Kuromoji
係り受け解析技術
KNP:係り受け解析器
統計的手法・機械学習の発展
確率・統計モデルを用いた統計的自然言語処理の登場
言語データが膨大な量になった <- Webの発展
コンピュータの性能が劇的に向上した
人手によって整備されたルールや基準によって処理するのではなく、実際のデータから得られた統計情報によって確率的に処理するというアプローチが一般的になりました
/icons/hr.icon
1-4 自然言語処理の関連分野
人工知能
言語学
言語学は、人間の言語そのもの、もしくはそれに付随する仕組みを明らかにする学問
計算言語学
計算言語学は、統計や論理など計算的手法を利用して自然言語をモデリングする言語学の一分野
テキストマイニング
確率・統計的な手法を用いて大量のテキストから有用な情報を引き出す技術の総称であり、言語自体の処理よりも「役に立つ情報を引き出すこと」に重点が置かれた分野
機械学習
音声認識
人間の喋る言語(音声言語)をコンピュータによって解析し、文字や文章などの書かれた言葉に変換する技術
from 音声 to 文字
SiriやGoogle Voice Searchなど。機械翻訳に類似
音声合成
文字や文章などの書かれた言葉(テキスト)を音声に変換する技術
from 文字 to 音声
なんかこの前Twitterでめっちゃ精度の高い他言語翻訳&音声合成の動画みたな。
/icons/hr.icon
1-5 自然言語処理の参考書籍・記事
首都大東京の小町研究室のサイト
/icons/web.icon 自然言語処理を独習したい人のために
/icons/web.icon 自然言語処理を学ぶ推薦書籍
自然言語処理への入門
/icons/iBooks.icon 入門 自然言語処理
/icons/web.icon Pythonによる日本語自然言語処理
/icons/iBooks.icon 自然言語処理 (放送大学教材)
自然言語処理の事典、関連トピックの解説
/icons/iBooks.icon 人工知能学事典 特に第7章「自然言語処理」
/icons/iBooks.icon 言語処理のための機械学習入門
自然言語処理の個別トピックの解説本
/icons/iBooks.icon 日本語入力を支える技術
/icons/hr.icon