colbaseデータセットから振り仮名コーパスを作る試み
目的:
colbaseのデータセット、種々のオープンデータのようにもっといろんな場面で活用されてほしいなぁ(シビックテッカー的視点)
災害時にトイレマップとか、道路マップとか、有志がすごい初速で作るけど、文化財の被害状況マップみたいなのも、もっといろんな人が参加する形で作られるようにならないかなぁ。
自治体標準オープンデータセットに定義された文化財一覧データ
→とはいえ、現状のcolbaseのデータだと、データのゆらぎとか欠損とか多くて、よし使おう!とはなかなかならないのではないか。(データを機械的に扱いたい人の視点、というよりも、人文学研究者以外の人がcolbaseのデータを見た時に引っかかりそうな箇所?これそのまま使って大丈夫?大丈夫じゃないとしたらどうしたらいいのか?そもそも大丈夫か大丈夫じゃないのか、誰に聞いたらいい?)←ここがちょっと違うのかも。データのゆらぎや欠損が多いから使わないのではない?
誰に聞いたらいい?問題は意外と深刻かも。誰にでも聞いたら答えてくれる職場環境で見ていたらこの問題は生まれないけど、一歩博物館の外に出たら、そりゃ誰に聞いたらいいかわからない。まじでわからない。そういう時の図書館だ、とか言われればそうかもしれないけど、じゃあ何のための公式データベースなんだよと言われたら本当にそう。
colbaseを見に来る人のうち、画像コンテンツを探すことを目的としている人からすればそんなに問題じゃない。(とはいえ、下記の点に限った話でも、2024年6月23日時点で作品名かな”やくしにょらい”で検索すると28件ヒット、作品名”薬師如来”で検索すると35件ヒットで、ここ一致するといいなとかは思うけれども。)
→例えば、2024年6月3日更新のcolbaseデータセットを見ると、全147,511レコードあるうち、作品名かなのデータがあるのは61,233レコード。約58%のレコードに作品名かなデータが無い状態。
→漢字表記、それも、日常読み慣れない漢字を使った作品名が多いことを考えると、作品名かなは、情報保障上あるとよい。(データを機械的に扱いたい人の視点ではなくなっている。データを使ったコンテンツを受け取る人の視点?)
→作品名かなが無いなら、機械的に振れるといいけど、現状、形態素解析器が返す仮名データが、既に振られた仮名と一致しないことも多い。まず、既に作品名かなが振られているレコードを使って学習データを作成するのがよいか...?
(論理的に筋の通っていないところもありそうだけども...とりあえず書いてみた...。)
(ふわっとしたこと言うけど、文化財とか美術の情報・データを、どうその界隈の外まで開いていくか、届けるか、ということがしたいんだと思っている。)
参考事例:
https://github.com/ndl-lab/huriganacorpus-ndlbib?tab=readme-ov-file
1. colbaseデータセットから、作品名と作品名かながともに重複しているものを取り除く
作品名のひらがな・カタカナの表記違いはそれぞれ別の作品名とみなす。
作品名かなのひらがな・カタカナの表記違いは重複とみなす。
作品名かなの文字や記号の全角・半角の表記違いは重複とみなす。
作品名かなのわかち書きの空白有無の違いは重複とみなす。
データ作成時の誤植と思われるものもそのまま残す。(何が誤植で何が誤植でないかの客観的な判断ができないため。)
括弧が有るものと無いものは、両方とも残す。(後で括弧有りに統一するかもしれない。)
カタカナ部分を含む作品名かなとカタカナ部分を含まない作品名かなが有る場合、両方とも残す。(カタカナ部分を含まない作品名かなしか無い場合に、カタカナ部分を追加する処理は後でまとめて行うため、一旦両方残しておく。)
colbaseで振られている仮名は書き言葉の仮名である。基本的には、作品名と作品名かなが一致することを目指す。
話し言葉の仮名を補填することも課題といえば課題...?
colbaseの作品名データを眺めていて気づいた諸々はこちらにまとめています。colbaseかなデータを見て