テキストマイニング - kyoyo-ds2019-004

テキストマイニング

テキストマイニングとは?

テキストマイニング（英: text mining）は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節で区切り、それらの出現の頻度や共出現の相関、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である。

テキストデータの多くは形式が定まっておらず、また日本語は英語などと比べて単語の境界判別の必要性（→わかち書き）や文法ゆらぎが大きい点において形態素解析が困難であったが、自然言語処理の発展により実用的な水準の分析が可能となった。テキストマイニングの対象としては、顧客からのアンケートの回答やコールセンターに寄せられる質問や意見、電子掲示板やメーリングリストに蓄積されたテキストデータなどがある。

文字列を単語や文節で区切り、出現頻度、共起関係、出現傾向、時系列を解析して有益な情報を得る手法

データマイニングの一手法

目的

テキストデータは、「定性データ」の代表的なもので、この「定性データ」から付加価値の高い情報を収集することがテキストマイニングの目的です。

定性データの有効な分析を行う

定性データの分析は定量データの分析よりも難しい

参考サイト

https://www.traina.ai/solution/textmining/about.html

https://ja.wikipedia.org/wiki/テキストマイニング

#テーマ1