データサイエンスとデジタルアーカイブ
2020-07-08
デジタルアーカイブ原論
大向一輝(東京大学大学院人文社会系研究科)
自己紹介
2019年8月まで国立情報学研究所
ウェブ情報学
セマンティックウェブ・Linked Open Data・ナレッジグラフ
ブログ・SNS・集合知
学術コミュニケーション
大学図書館ネットワーク
オープンデータ
オープンガバメント
オープンサイエンス
2019年9月から東京大学
人文情報学
データサイエンスとは
データを用いて新たな科学的および社会に有益な知見を引き出そうとするアプローチのことであり、その中でデータを扱う手法である情報科学、統計学、アルゴリズムなどを横断的に扱う。
昨今、センサー・通信機器の発達、ネットサービスの普及などにより、収集・蓄積が可能なデータの種類と量が急激に増大しております。そして、これらの膨大なデータ(ビッグデータ)から、ビジネスに活用する知見を引き出す中核人材として「データサイエンティスト」に注目が集まっております。
Python基礎
Pythonによる科学計算
Pythonによるデータ加工処理の基礎
データサイエンスにおけるデータの可視化・確率統計の基礎
機械学習の基礎(教師あり学習)
機械学習の基礎(教師なし学習)
モデルの検証方法とチューニング方法
特徴量エンジニアリング
デジタルアーカイブのデータ
史資料そのもの
テキスト
画像(2D・3D)
音声
映像
…
史資料から抽出された「知識」
人名
地名
時間
主題
…
情報サービスに付随するもの
ユーザ登録情報
アクセスログ
コメント
…
デジタルアーカイブのデータサイエンス
抽出・変換
例:画像からテキスト・テキストから人名
関連づけ
例:人間関係・地名の変遷
統計
「遠読」(distant reading)
…
(+分析・解釈)
研究手法の共有
研究目的の多様性を前提として
手法の高度化・複雑化
情報技術の導入
分業の必要性
異なる職能で構成されるチーム
コミュニケーションの定型化
人間系
情報系
いくつかの典型例
北米を中心とした大学図書館所蔵資料のデジタル化(2003〜)
資料群に含まれる単語の頻度分布を時系列で表示する
「遠読」(distant reading)による新たな知見の抽出
例:The United States are / The United States, The United States is / The United States
参考
「デジタルテキストの読解と分析のためのウェブ上の環境です。」
参考
史料群に含まれる単語を機械学習を用いて自動分類
トピックごとに役割が類似した単語が集約
トピックの分布が類似した文書を関連史料として推薦
参考
議事録と出席簿からの人名抽出・名寄せ
統計分析
推移分析
約100館の所蔵作品情報と施設・イベント情報の構造化、相互リンク
市民向けサービスの開発・運用
参考
史資料に記載された日付の構造化とID付与
異なる暦法間の相互変換
あいまいな時間表現の明示的な記述規則を定義
辞書・リスト
固有の識別子(ID)を与える
永続性と外部からの参照
人名
主題
地名
その他
画像からの文字自動認識
古典籍44点の4328文字種・1086326文字の画像データを提供(2019年11月現在)
画像認識・機械学習のための教師データ
くずし字認識アルゴリズムのコンテスト開催
全文検索
類似画像検索
画像補正
クラウド翻刻の一種
ユーザ参加による史料画像のテキスト化
教材の開発とゲーミフィケーション
参加者4000名超・入力文字数500万超
CiNiiのアクセスログ分析
短期・長期のアクセス傾向
デバイスごとの割合
課題と展望
大規模化
デジタル情報の保存コストの低減による多様な史資料の蓄積
複数の史資料群を横断した検索・データマイニング
意味を捨象した「パターン認識」にすぎない?
解釈可能性・説明可能性の欠如?
多層化
史資料に内在する知識の明示化
時間・空間・人・対象…
知識の同一性・関連性に基づく体系化
明示化を誰が担うのか?
暗黙的な知識の関連性は多様かつ膨大すぎる?
共有と協働
インターネットを通じた分散的な情報源への透過的なアクセス
資源共有から共同作業へ
ユーザ参加のインセンティブ設計は?
信頼性が担保できない?
データサイエンス自体に内在する課題
因果と相関
ドメイン知識が必要不可欠
参考