データサイエンスとデジタルアーカイブ
2020-07-08
デジタルアーカイブ原論
大向一輝(東京大学大学院人文社会系研究科)
CC BY 4.0
自己紹介
2019年8月まで国立情報学研究所
ウェブ情報学
セマンティックウェブ・Linked Open Data・ナレッジグラフ
ブログ・SNS・集合知
学術コミュニケーション
CiNii の中の人
大学図書館ネットワーク
オープンデータ
オープンガバメント
オープンサイエンス
2019年9月から東京大学
人文情報学
UTDH
/utdh/人文情報学勉強会
YouTubeチャンネル
文化庁メディア芸術データベース プロデューサー
データサイエンスとは
ウィキペディア
データを用いて新たな科学的および社会に有益な知見を引き出そうとするアプローチのことであり、その中でデータを扱う手法である情報科学、統計学、アルゴリズムなどを横断的に扱う。
データサイエンティスト協会
昨今、センサー・通信機器の発達、ネットサービスの普及などにより、収集・蓄積が可能なデータの種類と量が急激に増大しております。そして、これらの膨大なデータ(ビッグデータ)から、ビジネスに活用する知見を引き出す中核人材として「データサイエンティスト」に注目が集まっております。
データサイエンティスト育成講座
Python基礎
Pythonによる科学計算
Pythonによるデータ加工処理の基礎
データサイエンスにおけるデータの可視化・確率統計の基礎
機械学習の基礎(教師あり学習)
機械学習の基礎(教師なし学習)
モデルの検証方法とチューニング方法
特徴量エンジニアリング
デジタルアーカイブのデータ
史資料そのもの
テキスト
画像(2D・3D)
音声
映像
…
史資料から抽出された「知識」
人名
地名
時間
主題
…
情報サービスに付随するもの
ユーザ登録情報
アクセスログ
コメント
…
デジタルアーカイブのデータサイエンス
抽出・変換
例:画像からテキスト・テキストから人名
関連づけ
例:人間関係・地名の変遷
統計
「遠読」(distant reading)
…
(+分析・解釈)
Methodological Commons(方法論的共有地)
研究手法の共有
研究目的の多様性を前提として
手法の高度化・複雑化
情報技術の導入
分業の必要性
異なる職能で構成されるチーム
コミュニケーションの定型化
人間系
情報系
いくつかの典型例
Google Books Ngram Viewer
北米を中心とした大学図書館所蔵資料のデジタル化(2003〜)
資料群に含まれる単語の頻度分布を時系列で表示する
「遠読」(distant reading)による新たな知見の抽出
例:The United States are / The United States, The United States is / The United States
参考
カルチャロミクス
遠読
Voyant Tools
「デジタルテキストの読解と分析のためのウェブ上の環境です。」
参考
CiNii Books 検索 - テキストマイニング
【UTDH Lab】Voyant Toolsで簡単テキスト分析〜コロナウイルス感染症対策本部の会議資料をみてみよう〜
日本南北朝期史料を対象とした潜在的トピックによる史料分類と関連史料提示の手法
史料群に含まれる単語を機械学習を用いて自動分類
トピックごとに役割が類似した単語が集約
トピックの分布が類似した文書を関連史料として推薦
参考
トピックモデルによる統計的潜在意味解析
素人がトピックモデルを試してみた (第1回)
18世紀パリ王立科学アカデミー集会の出席会員分析に向けたデータ構築と可視化
議事録と出席簿からの人名抽出・名寄せ
統計分析
推移分析
Linked Open Dataによる博物館情報と地域情報の連携
約100館の所蔵作品情報と施設・イベント情報の構造化、相互リンク
市民向けサービスの開発・運用
LODAC
参考
Linked Data : Webをグローバルなデータ空間にする仕組み
時間名による時間参照基盤の構築-Linked Dataを用いた期間の記述とリソース化
史資料に記載された日付の構造化とID付与
異なる暦法間の相互変換
あいまいな時間表現の明示的な記述規則を定義
HuTime
辞書・リスト
固有の識別子(ID)を与える
永続性と外部からの参照
人名
VIAF
Getty ULAN
主題
LCSH
NDL Authorities
地名
GeoNames
GeoNames.jp
その他
DBpedia
DBpedia Japanese
Wikidata
AIくずし字OCRサービス
画像からの文字自動認識
日本古典籍くずし字データセット
古典籍44点の4328文字種・1086326文字の画像データを提供(2019年11月現在)
画像認識・機械学習のための教師データ
くずし字認識アルゴリズムのコンテスト開催
次世代デジタルライブラリー
全文検索
類似画像検索
画像補正
みんなで翻刻
クラウド翻刻の一種
ユーザ参加による史料画像のテキスト化
教材の開発とゲーミフィケーション
参加者4000名超・入力文字数500万超
CiNiiのアクセスログ分析
短期・長期のアクセス傾向
デバイスごとの割合
課題と展望
大規模化
デジタル情報の保存コストの低減による多様な史資料の蓄積
複数の史資料群を横断した検索・データマイニング
意味を捨象した「パターン認識」にすぎない?
解釈可能性・説明可能性の欠如?
多層化
史資料に内在する知識の明示化
時間・空間・人・対象…
知識の同一性・関連性に基づく体系化
明示化を誰が担うのか?
暗黙的な知識の関連性は多様かつ膨大すぎる?
共有と協働
インターネットを通じた分散的な情報源への透過的なアクセス
資源共有から共同作業へ
ユーザ参加のインセンティブ設計は?
信頼性が担保できない?
データサイエンス自体に内在する課題
因果と相関
ドメイン知識が必要不可欠
参考
ビッグデータ・リトルデータ・ノーデータ