自然言語処理
NLP:自然言語処理(Natural Language Processing)
2つの方法で処理
機械可読目録
書き言葉を機械が理解できるようにする通信規格
人間の言葉を、機械が理解できるようにするための辞書のような存在
コーパス
自然言語の使用方法を集積したもの。
機械が自然言語を理解するための膨大なサンプル。人が英会話を学習する際の、英文用例集のような存在
使用用途
テキストマイニング
テキストデータの中から重要な情報を抽出する技術
非構造化データの処理
非構造化データとは、行や列によって構造化されていないデータのこと
人間の言語も非構造化なデータの一つ
アレクサ、Google Home、Siriなど
自然言語処理の流れ
1.形態素解析
意味をもつ最小単位である単語に分ける
2.文章構造の解析
単語同士の関係性を解析する
3.文章の意味を分析
辞書を利用して単語同士の意味や関係を調べる
結果をもとに、構文解析の中から最適な構文を選出
4.文脈を理解したうえでの情報抽出
前後の文章にも構文解析と意味解析を実施し、文脈を明らかにする
自然言語処理に用いられる手法
共起語解析
共起語とは、ある言葉と関連性が強く、同時に用いられる言葉
トピックモデル
文章のトピック(題目)を把握するための技術
感情分析
感情を示す単語ごとにポジティブなら加点・ネガティブなら減点し、総合点によって文章全体を判断する