【研究】データセットに着目した学術論文の検索支援 ー来年から研究をしようと思っているあなたへ
来年から研究室に所属して研究をしようと思っている
そこのあなたへ
/icons/水平線.icon
(長めの前説)
おはこんにちばんは.卒業生の玄道です.ここまでたどり着いた人はそれなりに「研究」というものに興味を持っている人だと思います.早速ですが,みなさんは研究にどんなイメージを持っていますか?
「研究って難しそう」「 研究って面白そう!」「研究ってすごいことするんでしょ?」......... 色々感想をお持ちでしょう.
研究とは「こういうものです!」と一言ではなかなか言いにくいものです.分野や使う技術が様々ですからね.
ですが,すべての研究において共通することがあります.
それは..........
過去の研究を知ることが研究の第一歩
ということです.一生懸命研究したことが「もうすでにやられてもうてるやん!!」ってなると辛いですもんね.
過去の研究を学ぶもっとも一般的となっている方法は,研究者が研究を記したものを読む.つまり,
論文を読むことです!!!
「あーなるほど,つまり研究したけりゃ論文読めってことでしょ.はいはい簡単じゃん.」と思っているそこの君!
そりゃ自分が研究しようとしている分野に合致した論文があれば,読むだけでいいですけどぉ〜〜
その論文にたどり着くのが思っている以上に大変なんです!!!
なんたって2014年時点で論文は1.6億本の論文があるんですから.
研究者が論文を探す方法としてやられている方法が,
検索ワードをGoogle Scolar(論文検索専用のグーグルさんだよ)に入力して検索する方法
自分の研究に関係してる論文が,どんな論文を参考にしているか(参考文献)を検索する方法
の主に2つが一般的なんですよ.
ただその検索方法だけだと,論文の数は膨大だし
自分に必要な論文が結果として引っかかってこないときあるのでは?もっと効率よく論文探せるんじゃない?
と僕は考えました.
そんな疑問から始まったのが僕の研究です.
つまり,「研究」自体が僕の研究対象なのです.
前説が長くなりましたが,研究の走り出し,プロセス(ついでに僕の研究)がなんとなくわかりましたか?
少し興味を持っていただけたら,この下に書いてある僕の研究を知って行ってください.また,他の研究室メンバーの研究も見に行ってください.
もう一度いいます.研究は過去の研究を知ることが研究の第一歩です.
松下研究室の研究を知ろうとした時点で,あなたはもうすでに研究をしているといっても過言ではありません.
どうですか? 研究のイメージ,変わりましたか?
/icons/水平線.icon
(前説終わり)
情報編纂:データセットに着目した学術論文の検索支援
効率的な研究活動の支援の一貫として,データセットに着目した学術論文の検索手法を模索しています.各研究で扱うデータセットを明示することでデータセットを起点とした探索を行う事が可能となり,直接的には関連しておらず探すことが難しかった論文を発見できると考えています.
データセットに着目した学術論文の探索支援(M2 玄道俊)
なんのために?
データを用いて研究をする人が効率よく研究するため
参考にする論文がどんな項目のデータを用いたか把握することは難しい.すべての論文を読んで把握することは多大な時間と労力を要する.
例えば・・・
同じ料理の研究でも,料理を作る工程のデータを使っている場合もあるし,料理の材料のデータを使っている場合もある.
どうした?
「各論文がデータセットのどの項目を用いているか」を記したデータセットを作成した
それどうやって使うの?
例えば...
論文同士の類似度を算出して,内容が似ている論文だけどデータが違う論文を探すことができたり
論文の内容は類似していないんだけど,データが同じものを使っている論文を探すことができたり
松下研究室での論文に関する過去の研究
玄道俊, 松下光範 : 類似したタイトルを持つ論文同士の内容的差異に対する特徴分析, 第 20 回情報科学技術フォーラム (FIT2021) , D-021, 2021
玄道俊,松下光範:アブストラクトの定型性に着目した論文の構造推定に関する検討, 第13回データ工学と情報マネジメントに関するフォーラム (DEIM2021) , B14-5, 2021
>Shun Gendo, Koichi Hodooka, Mitsunori Matsushita : Grasping Research Trends Based on Similar Cited Papers, The 34th Annual Conference of the Japanese Society for Artificial Intelligence, 2O1-ES-5-02, 2020