テキストマイニング
テキストマイニング(Text Mining)
→計量テキスト分析(Quantitative Text Analysis)
テキストを対象とするデータマイニング
通常のデータマイニングでは、主に構造化データを対象とする。テキストという非構造化データを対象にする点に特徴がある。
膨大な分量からなる文字データを計量的に分析することができる
ただしコンピュータ・ソフトウェアは、そのデータについて判断を下したり解釈をすることまではできない
「どのような文字列からなる表現を含むデータが何件あるか」ということを網羅的に集計することが可能
テキストマイニングでは自然言語処理(Natural Language Processing)技術が活用される
自然言語 = 人間が用いる言語(英語や日本語など)
プログラミング言語と比較して「自然言語」
厳密に定義されたプログラミング言語や人工言語などと比べて、遥かに曖昧さや多様性を含む
そのため言語の仕様を明確には定義できない
表現と解釈の両方で柔軟性が高い
e.g. 「私はうなぎです」(那須川 2006, p. 21)
テキストマイニングでは、以下の方法で対象のテキスト(文書集合)に拠るデータセットが作成される
形態素解析(Morphological analysis)
形態素解析により、日本語の連続した文字列を、文法的に意味のある単位の構成要素(語)に分割し、各要素の文法的素性(品詞など)が明らかになる。
構文解析
形態素解析により分割された要素について、関係性を判定し、文法的・意味的にまとめる。
カテゴライズ
マイニングプロセスでは、データセットによる「用語や概念とそれらの出現回数のリスト作成」「要素の分布」「要素間の関連性分析」などが行われる。
アプリケーション
KH Coder
Voyant Tools
参考文献
那須川哲哉. 2006. テキストマイニングを使う技術/作る技術 : 基礎技術と適用事例から導く本質と活用法. 東京電機大学出版局.
樋口耕一. 2014. 社会調査のための計量テキスト分析 : 内容分析の継承と発展を目指して. ナカニシヤ出版.
山内長承. 2017. Pythonによるテキストマイニング入門. オーム社.