テキストマイニングハンドブック
#
#
テキストマイニングハンドブック
Ronen Feldman(他著) / 辻井潤一(監訳) / IBM東京基礎研究所テキストマイニングハンドブック翻訳チーム(訳)
A5判 540頁 並製
7,200円+税
ISBN 978-4-501-54810-0 C3004
在庫あり
奥付の初版発行年月 2010年07月
書店発売日 2010年07月10日
紹介
テキストマイニング技術とリンク検出の実運用アプリケーションについて、最新の話題を網羅的にまとめたハンドブック。
テキストマイニング技術に関して網羅的にまとめた定評あるハンドブック。主原著者のRonen Feldmanはイスラエルのバルーイラン大学数理計算機科学部上級講師,データ・テキストマイニング研究所の所長。監訳者の辻井教授はイギリスのNactem(National Center for TextMining)サイエンスディレクター。訳者チームはIBM東京基礎研究所にてテキストマイニング技術の研究開発に従事。
目次
第1章 テキストマイニングとは
1.1 テキストマイニングの定義
1.2 テキストマイニングシステムの一般的な構成
第2章 テキストマイニングの中核となる手法
2.1 テキストマイニングの中核となる手法
2.2 テキストマイニングにおける背景知識の利用
2.3 テキストマイニングのクエリ言語
第3章 テキストマイニングの前処理技術
3.1 タスク志向アプローチ
3.2 参考文献・注釈
第4章 テキスト分類
4.1 テキスト分類のアプリケーション
4.2 問題定義
4.3 文書の表現
4.4 テキスト分類に対する知識工学的アプローチ
4.5 テキスト分類に対する機械学習的アプローチ
4.6 未分類のデータを用いた分類の改善
4.7 テキスト分類器の評価
4.8 参考文献・注釈
第5章 クラスタリング
5.1 テキスト分析におけるクラスタリング
5.2 一般的なクラスタリング問題
5.3 クラスタリングアルゴリズム
5.4 テキストデータのクラスタリング
5.5 参考文献・注釈
第6章 情報抽出
6.1 情報抽出の概要
6.2 情報抽出の歴史的発展:MUCとTIPSTER
6.3 情報抽出の例
6.4 情報抽出システムのアーキテクチャ
6.5 照応解消
6.6 情報抽出向け帰納的アルゴリズム
6.7 構造的情報抽出
6.8 参考文献・注釈
第7章 情報抽出のための確率モデル
7.1 隠れマルコフモデル(HMM)
7.2 確率的文脈自由文法(SCFG)
7.3 最大エントロピーモデル
7.4 最大エントロピーマルコフモデル(MEMM)
7.5 条件付き確率場
7.6 参考文献・注釈
第8章 統計的・複合的手法を用いた前処理
8.1 隠れマルコフモデルのテキスト解析への応用
8.2 情報抽出への最大エントロピーマルコフモデルの利用
8.3 条件付き確率場のテキスト解析への応用
8.4 TEG:統計と知識を融合した情報抽出のための確率文脈自由文法の規則
8.5 ブートストラッピング
8.6 参考文献・注釈
第9章 ブラウジングとクエリ改良のためのプレゼンテーション層の考察
9.1 ブラウジング
9.2 プレゼンテーション層での制約と簡易設定フィルタの提供
9.3 システムの基礎となるクエリ言語へのアクセス
9.4 参考文献・注釈
第10章 可視化アプローチ
10.1 イントロダクション
10.2 アーキテクチャ上の考察点
10.3 テキストマイニングのための共通可視化アプローチ
10.4 リンク解析における可視化手法
10.5 実世界の事例:DOCUMENT EXPLORER SYSTEM
第11章 リンク解析
11.1 準備
11.2 ネットワークの自動描画
11.3 パスとサイクル
11.4 中心性
11.5 ネットワークの分割
11.6 ネットワークのパターンマッチング
11.7 リンク解析のソフトウェアパッケージ
11.8 参考文献・注釈
第12章 テキストマイニングアプリケーション
12.1 一般的な考察事項
12.2 企業財務における利用
12.3 「横展開向き」のテキストマイニングアプリケーション:商用テキスト分析プラットフォームを用いた特許分析ソリューション
12.4 ライフサイエンス研究分野:GeneWaysを用いた生化学パスウェイ情報のマイニング
付録A DIAL:テキストマイニングのための情報抽出処理用言語
A.1 DIALとは何か?
A.2 DIAL環境における情報抽出
A.3 テキスト分割
A.4 概念とルール分割
A.5 パターンマッチング
A.6 パターン要素
A.7 ルール制約
A.8 概念ガード
A.9 DIALの完全な例
訳者あとがき
参考文献
索引
前書きなど
コンピュータサイエンスの分野において,情報爆発という危機的問題の解決に挑む新しくて刺激的な研究分野がテキストマイニングである.その構成要素にはデータマイニング,機械学習,自然言語処理(NLP),情報検索(IR),ナレッジマネージメントといった分野で培われてきた技術が含まれる.リンク検出も同様に,急増するテキスト形式のデータ資源を人間がより適切に活用する新たな手段となってきており,テキストの分析方法においてテキストマイニングと多くの基本技術を共有し,急速に進化している.リンク検出では,それまで気付かなかったパターンや傾向を発見するため,相互に多様な関係を取る対象物のネットワークを構築することが重要となる.リンク検出の中心的な課題は,膨大な量のデータ資源を使うことにより,あまり頻繁に現れない兆候を抽出・発見して相互に結び付けていくこと,関連した兆候がどれくらい有意であるかを表現して評価すること,そして個々のエンティティ(entity)を抽出,発見したりそれらを結び付けたりすることに使える有効なパターンを学習することである.
このテキストマイニングハンドブックでは,テキストマイニングとリンク検出に関する最新の話題を網羅的に紹介する.テキストマイニングとリンク検出の中核となるアルゴリズムとその運用について,その詳細を紹介するとともに,高度な前処理の諸技術,知識表現での考慮点,さらには可視化の様々な手法も紹介する.最後に,多様な現場で不可欠な道具として使われているテキストマイニングとリンク検出の実運用アプリケーションについて,その最新情報を紹介する.ここで紹介する実運用アプリケーションは,企業財務のビジネスインテリジェンスや遺伝子研究,そしてテロ対策活動といった多岐な分野から採った.
ローネン・フェルドマン(Ronen Feldman)博士は,イスラエルのバーイラン(Bar-Ilan)大学数理計算機科学部における上級講師であり,データ・テキストマイニング研究所の所長を務めている.フェルドマン博士はClear Forestの共同創業者にして研究部門のトップ,かつ社長であり,企業や政府のユーザ向けに次世代テキストマイニングアプリケーションの開発を率いている(Clear Forestは2007年にReuterに買収された).また最近では,ニューヨーク大学(NYU)のStern School of Businessの非常勤教授も務めている.機械学習,データマイニング,非構造データ処理のパイオニアであり,共著も合わせると70編を超える論文を発表している.
2010年5月の時点ではイスラエルのエルサレム・ヘブライ大学(Hebrew University of Jerusalem)のビジネススクールにおける情報システム学部長であり,また,高度なテキストマイニングを実現するための企業であるDisital Trowel http://www.digitaltrowel.com を立ち上げている. ジェイムズ・サンガー(James Sanger)氏はベンチャー事業への投資家であり,技術応用の専門家であり,商用データに関するソリューション,インターネットアプリケーション,ITセキュリティ製品といった分野での業界通として知られている.電子商取引企業を対象とした金融業務に従事する企業,Alex.Brown and Sonsから独立し,1982年に独立系ベンチャー企業として創立されたABS Venturesの共同経営者である.ABS Venturesに加わる前にはDeutsche Bank(ドイツ銀行)の国際ベンチャーキャピタル部門であるDB Capital Venture Partnersの担当責任者を務めていた.ベンチャー事業に関与するまではドイツ銀行,Barclays Bank(バークレイズ銀行),Bell Atlantic(現在はVerizon Communications)においてIT管理の職務を担当していた.
現在はEverbridge,Persystent Software及びOvertonesの取締役会において議長を務めている.また,成功を収めた数々のソフトウェア企業への投資に関与しており,その企業にはQualys,Compuwareが買収したAlpha Blox,Reutersが買収したClear Forest,そしてRho Capital率いる企業連合が買収したIntraLinksが含まれる.
著者プロフィール
Ronen Feldman(ローネン・フェルドマン)
辻井潤一(ツジイジュンイチ)
IBM東京基礎研究所テキストマイニングハンドブック翻訳チーム(アイビーエムトウキョウキソケンキュウジョテキストマイニングハンドブックホンヤクチーム)