テキストマイニング
文末にいくつか論文の例を記載しているが、次のウェブサイトの説明がもっとも適切だと判断した。
定型化されていないテキストは単語やフレーズ、何らかの単位に分割し、それらの出現頻度や共起関係(同時出現)などを抽出し、データ解析やデータマイニングの手法で定量的に解析することができる。その分野を計算的テキスト解析(computational text analysis)、あるいは統計的テキスト解析(statistical text analysis)を呼ぶが、情報処理やビジネス分野では、テキストマイニング(text mining)と呼ばれている。
cf. 統計的テキスト解析(1)~統計的データ解析とは?~https://www1.doshisha.ac.jp/~mjin/R/56/56.html
もともと「データマイニング」なるものがあり、それを、まとまりのある文章(小説、詩文、エッセーなど)を「記号列が何らかの規則にしたがって並べられた集合体(cf.同上)」という「テキスト」だとみなす考え方と結びついたことで、文章を定量的に解析する行為として「テキストマイニング」が発生した、という流れをいくつかの記事から読むことが出来た。
100人に犬について書いてもらうことにする。1,000文字程度ならなんでもいいとする。これを解析することは難しい。だがたとえば、複数名の文章を読むと「かわいい」という語が頻繁に現れる傾向が定性的に判断できるとする。これを定量的に裏付けるために、百人が書いたまとまりのある文章をただの単語列として脱構造し、文中の各単語の出現数をカウントして(定量化)多い順に並べればそれは単語を出現頻度順に並べたデータセットになる。
続き。100の要素をもつテキストという集合において、この集合を構成する各要素は単語という要素を持つ。単語は原子のように、言語における意味をもつ情報の最小単位の位置を占める。この単語を解析してやる行為がテキストマイニングだ。
ちなみに文学には「テクスト」という語があるが、「テキストマイニング」の可能性は「テクスト」の提唱ありきであるような気がする。 link: #「テクスト」と「テキスト」のちがい
金山博
一般には,データマイニングのテキスト版として,テキストデータを単語の集合に変換し,構造化されたデータと組み合わせて,それらの相関や偏り,時系列を見て情報を抽出する手段であり,個々の文章を読むだけでは得られない知識を,複数の文書を串刺しにすることによって得られるようにするのが本質と言われている
cf.金山 博, テキストマイニングとは何か?, 情報・システムソサイエティ誌, 2017-2018, 22 巻, 1 号, p. 8-9, 公開日 2017/05/01, Online ISSN 2189-9819, Print ISSN 2189-9797, https://doi.org/10.1587/ieiceissjournal.22.1_8, https://www.jstage.jst.go.jp/article/ieiceissjournal/22/1/22_8/_article/-char/ja
保田明夫
https://gyazo.com/fbd09e09f7b2cf36342617f8b749ff7f
https://gyazo.com/1b07a1049d462d81e8b71774cd3a4e72
cf.保田 明夫, テキスト·マイニングの概要, 電気学会論文誌C(電子・情報・システム部門誌), 2005, 125 巻, 5 号, p. 682-689, 公開日 2005/08/01, Online ISSN 1348-8155, Print ISSN 0385-4221, https://doi.org/10.1541/ieejeiss.125.682, https://www.jstage.jst.go.jp/article/ieejeiss/125/5/125_5_682/_article/-char/ja, 抄録: The objective of this paper is to give overviews of text mining or textual data mining in Japan from the practical aspects. Text mining is the technology utilized for analyzing large volumes of textual data applying various parameters for purpose of withdrawing useful knowledge and information. The essence of “Mining” is "the discovery of knowledge or information." And target of text mining is to objectively discover and extract knowledge, facts, and meaningful relationships from the text documents. This paper summarizes the related disciplines and application fields which are applied in text mining, and introduces features and application examples of text mining tools.
TRAINA「テキストマイニングとは?」
大量の文章データ(テキストデータ)から、有益な情報を取り出すことを総称してテキストマイニングと呼びます。自然言語解析の手法を使って、文章を単語(名詞、動詞、形容詞等)に分割し、それらの出現頻度や相関関係を分析することで有益な情報を抽出します。
ビッグデータの活用においても、テキストマイニングは非常に重要な要素となります。ビッグデータ解析の対象となるデータは数値などの形であらわされる比較的取扱いの簡単な「構造化・定量データ」、数値に表すことのできない感覚的な側面を持つ、「非構造化・定性データ」に大別されます。
テキストデータは、「定性データ」の代表的なもので、この「定性データ」から付加価値の高い情報を収集することがテキストマイニングの目的です。
https://www.traina.ai/solution/textmining/about.html
全引用は2020/10/14閲覧のWebサイト記述に基づく