『自然言語処理の基本と技術』第1章まとめ
自然言語処理の概要
/icons/hr.icon
逆に「自然」ではない言語って?
自然言語は曖昧=はっきりと決まらない
日本語だけでなく、英語も曖昧性を持つ
「日本語がは曖昧だ」と言われる理由
主語などの構成要素を省略する傾向が強い
日本人は明言を避けるという文化的な背景
日本語という言語そのものの本質とはあまり関係がない
tanaken0515.icon 本質って?
/icons/hr.icon
1-2 自然言語処理の応用例と利用技術
table:例と技術
No. 応用例 利用技術 関連する章
/icons/hr.icon
1-3 自然言語処理の歴史
@米国
ロシア語やフランス語 -> 英語 の翻訳
「ロシア語を見たときに『この文章はもともと英語で書かれていたが、奇妙な記号によって暗号化されている。これを復号化しよう』と考えても良いのではないか」
もともと理解できる言語で書かれていたものが何らかの影響で異なる言語に変わってしまった
対話型
野球の試合に関する情報を記録し、自然言語の文での問い合わせに対して答える質問応答システム
テキストベースの対話プログラム
画面上の仮想世界における「積み木」に関する対話を人間とコンピュータが行なう自然言語理解システム
月から持ち帰られた石に関する対話システム
@日本
1980年代、世界的にみても盛んに研究されていた
日本語の科学技術論文を英語に翻訳するシステム
ワープロやパソコンの普及 -> ワードプロセッサ・ソフトウェア(一太郎)の普及 JUMAN:人手により作られた辞書や規則をベースに開発。 統計的な手法によって、自動的にコスト推定する点が当時革新的でした CRF(条件付き確率場)によってコスト推定する汎用テキスト処理エンジン 汎用性の高さと解析速度の速さ、そして高い解析精度が特徴
統計的手法・機械学習の発展
言語データが膨大な量になった <- Webの発展
コンピュータの性能が劇的に向上した
人手によって整備されたルールや基準によって処理するのではなく、実際のデータから得られた統計情報によって確率的に処理するというアプローチが一般的になりました
/icons/hr.icon
1-4 自然言語処理の関連分野
言語学は、人間の言語そのもの、もしくはそれに付随する仕組みを明らかにする学問
計算言語学は、統計や論理など計算的手法を利用して自然言語をモデリングする言語学の一分野
確率・統計的な手法を用いて大量のテキストから有用な情報を引き出す技術の総称であり、言語自体の処理よりも「役に立つ情報を引き出すこと」に重点が置かれた分野
人間の喋る言語(音声言語)をコンピュータによって解析し、文字や文章などの書かれた言葉に変換する技術
from 音声 to 文字
文字や文章などの書かれた言葉(テキスト)を音声に変換する技術
from 文字 to 音声
なんかこの前Twitterでめっちゃ精度の高い他言語翻訳&音声合成の動画みたな。
/icons/hr.icon
1-5 自然言語処理の参考書籍・記事
首都大東京の小町研究室のサイト
自然言語処理への入門
自然言語処理の事典、関連トピックの解説
/icons/iBooks.icon 人工知能学事典 特に第7章「自然言語処理」 自然言語処理の個別トピックの解説本
/icons/hr.icon