研究活動に対する客観的かつ定量的な評価指標
https://gyazo.com/e5582df4cb2fab30743f1f5dc2f1c705
m0t0k1ch1.icon 研究活動の評価指標である h-index と、その派生指標群である h-index ファミリーについて、概要を抽出メモする
---.icon
1. はじめに
「研究」という未知のものを発見し,新たに価値を創造していく高度に専門化された作業の中でも,公平かつ定量的な評価指標が求められている。この背景には国立大学の学校法人化や国公立研究所の独立行政法人化を契機として,限られた研究資金の配分をめぐり,研究者個人や研究機関の適切な評価が必要となった影響が大きいと思われる。
m0t0k1ch1.icon 動機は 研究資金の適切な分配 であるということは重要
m0t0k1ch1.icon 分散型のプロトコルにおいても、同様の動機で公平かつ定量的な評価が求められることは多いと思う
---.icon
2. これまで利用されてきた指標
2.1 インパクトファクター
これまで研究のための評価指標と言えば,まずインパクトファクターが語られてきた。インパクトファクターはGarfieldが提唱した学術雑誌の評価指標である。特定の雑誌におけるその年のインパクトファクターは,その年の総被引用数を直近2年間の掲載論文数で割って算出される。つまり,雑誌に掲載された論文が平均してどの位引用されているのかを示す。
インパクトファクターは雑誌のレベルを測る定量値ではあるが,その中に収録されている個々の論文まで評価しているわけではない。ある雑誌に少数の高被引用論文(いわゆるホットペーパー)があった場合,インパクトファクトを大きく上昇させる可能性がある。事実,提唱者のGarfieldもインパクトファクターを個々の研究者評価に利用するべきではないと勧告している。
m0t0k1ch1.icon あくまで 学術雑誌の評価指標
m0t0k1ch1.icon 個々の研究者評価に利用するのはお門違い
2.2 論文数、被引用数、平均被引用数
これらの数字を用意するだけでも,精査された書誌引用データベースからの抽出が必要となり,実際には大変な作業であるのだが,この数字だけではあまり実用的な評価指標とはならない。例えば,総論文数は論文生産性(量)であり,総被引用数は他への影響力(質)の比較と言えるが,研究分野や施設規模によって大きく左右される。また,論文あたりの平均被引用数は極端に被引用数の多いホットペーパーの存在や生産性の低さによって大きく上昇する場合がある。
極端な例ではあるが,表1のように同じ研究分野の3名の研究者がいた場合,どの研究者により高い評価を与えるべきなのか。それを公平かつ定量的に計算する指標はあるのだろうか?
https://gyazo.com/e361654ab0239071166f297bf030deca
m0t0k1ch1.icon 基本的な数字をそのまま評価指標にしてもうまく機能しないよねという話
---.icon
3. h-index の提唱
3.1 h-index とは
h-indexは,「対象となる研究者が発表した論文のうち,被引用数が少なくとも$ h回あるものが$ h報以上ある。このとき,その研究者のh-indexは$ hである」と定義される。算出原理を図1に示す。
https://gyazo.com/87af220cc0d95d198aab4c619be6773a
m0t0k1ch1.icon これで正しい評価ができるかはさておき、シンプルで価値観が詰まってて好きよ h-index
m0t0k1ch1.icon 表 1 の 3 名の研究者に関しては、以下のようになる
研究者 A:5
研究者 B:2
研究者 C:2
エルゼビア社のインタビューに対してHirschは次のようなコメントを述べている。「私の論文と研究については本質的に争論(controversial nature)であり,そのためにインパクトファクターの高い雑誌に発表することができない。それにもかかわらず,多くの論文が非常に数多く引用されている。論文が高インパクトファクターの雑誌に発表されていなくても被引用数は評価において重要な役割を果たすべきだ。(中略)h-indexの重要な点は,研究を評価する簡単で客観的な基準になることである。雑誌の人気度には関係がないため,この指数は研究活動評価をより民主的に行う方法でもある」。
m0t0k1ch1.icon 提案者である Hirsch さん自身が抱えていた問題を解決する指標でもあったらしい
3.2 h-index の問題点
h-indexは「量」と「質」を考慮したシンプルな指標として注目を集めた。
注目された理由としては,①データとして引用上位の論文と被引用数さえ収集すればよいこと,②算出の計算式が簡単であること,③研究者個人だけでなく,研究機関や学科の評価7),あるいは学術雑誌の評価8)にも応用が可能であること,などが挙げられる。
しかしながら単純化された故に情報の欠落が問題となる場合がある。例えば表2のように同じh-indexを持つ2人の研究者の例では,上位の被引用数の総数は大きく異なる。この場合,対象となる被引用数の絶対値情報が抜けてしまうのである。他にもh-indexの問題点は多く指摘されている。一つにはh-indexでは研究者の活動期間が考慮されない。論文の生産にも被引用にも時間が必要である。つまり若手の研究者はもともと不利な条件で算出されることとなる。
また,h-indexだけの問題点ではないが,共著者の存在による影響は考慮しなくてよいのだろうか?一人で発表した研究論文と素粒子物理のように何百人もの共著者がいる論文を同等に扱えるのか。
さらに,研究分野による論文生産性の影響も大きく受ける。ライフサイエンスのように論文数や引用が多い研究分野と,数学やコンピュータサイエンスのような分野では生産性の状況は大きく異なる。そのため研究分野の異なる研究者間でh-indexを比較することはできない。
m0t0k1ch1.icon h-index の課題としては以下が挙げられる
高被引用論文の被引用数が欠落する(表 2 参照)
研究期間に依存する(若手にとって不利)
共著者数の影響が考慮されていない
分野間の比較が困難である
https://gyazo.com/5423274fb90e9a35633af5416760ddc9
これらのh-indexの弱点を補正すべく,多くの指標がその提唱後に報告されている。これらの各指標はh-indexの考え方をベースにしているためh-indices,あるいはh-indexファミリーと呼ばれている。
---.icon
4. h-index から派生した指標
4.1 g-index
g-indexはh-indexの補完的指標として2006年にベルギーのEggheにより提唱された。 h-indexの考え方に似ているのだが,「被引用上位$ g番目までの論文の被引用数総和が$ g^2以上となることを満たす最大値」がg-indexの値となる。算出方法はh-indexよりも複雑になるが,$ \mathrm{g\mathopen{-}index} \geqq \mathrm{h\mathopen{-}index}の関係が常に成り立ち,高被引用論文の情報が増幅されるため,同じh-indexを持つ研究者の間でもg-indexではよりセンシティブに差を出すことができる。つまり「量」と「質」の両面を測定するh-indexの利点を維持しながら,高被引用論文の特徴スコアをうまく表現するのである。
m0t0k1ch1.icon h-index の課題だった「高被引用論文の情報が欠落する」が改善している(が、ある程度欠落はする)が、「研究期間に依存する(若手にとって不利)」はより顕著になると思われる
m0t0k1ch1.icon 被引用上位論文の被引用数を増やせばスコアを上げることができる
スペインの天然資源学研究者における研究評価では,h-indexとg-indexの両指標およびその比($ g/h)を用いることにより,上位研究者のより詳細な分析が可能であったとされる。またその分析の中では,h-indexとg-indexは独立に扱うべきものではなく,互いに補完しあう指標であることを示唆している。
m0t0k1ch1.icon h-index の代替というわけではなく、補完関係とのこと
4.2 hg-index
算出方法はh-indexとg-indexの積の平方根である。$ \mathrm{hg\mathopen{-}index} = \sqrt{(\mathrm{h\mathopen{-}index}) \times (\mathrm{g\mathopen{-}index})}この計算式からもわかるように,hg-indexはh-indexとg-indexがあれば簡単に計算でき,$ \mathrm{g\mathopen{-}index} \geqq \mathrm{hg\mathopen{-}index} \geqq \mathrm{h\mathopen{-}index}の関係が成り立つ。つまり,h-indexとg-indexの中間的な性質を持ち,上位論文の被引用数情報に鈍感なh-indexと極一部ホットペーパーの影響を過敏に反映してしまうg-indexの弱点がうまく緩衝されている。そのためh-indexとg-indexのどちらかの指数が同じである研究者の比較においても,hg-indexは異なる値が提示できる。
m0t0k1ch1.icon h-index と g-index の合いの子
4.3 A-index
h-indexの算出において,論文順位h番以上の上位被引用論文グループ(Hirsch coreまたはh-coreと表現される)に着目し,その平均被引用数を持ってA-indexとする。表2のように被引用数が異なっていても同じh-indexを持つ研究者の場合に,その違いをうまく表現できる。研究者DのA-indexは37,研究者Eは370となる。$ \mathrm{A\mathopen{-}index} \geqq \mathrm{g\mathopen{-}index} \geqq \mathrm{h\mathopen{-}index}の関係が成り立つ。
m0t0k1ch1.icon h-core:(h-index の算出で考えた場合に)論文順位 h 番以上の被引用上位論文グループ
m0t0k1ch1.icon h-index の課題だった「高被引用論文の情報が欠落する」を改善している
m0t0k1ch1.icon 被引用上位論文の被引用数を増やせばスコアを上げることができる
4.4 R-index
計算式は$ \mathrm{R\mathopen{-}index} = \sqrt{(\mathrm{A\mathopen{-}index}) \times (\mathrm{h\mathopen{-}index})}となり,高被引用論文のintensityを表すとされる。$ \mathrm{A\mathopen{-}index} \geqq \mathrm{R\mathopen{-}index} \geqq \mathrm{h\mathopen{-}index}の関係となり,表2の例では,研究者DのR-indexは13.6,研究者Eは43.0となる。
m0t0k1ch1.icon A-index と h-index の合いの子
4.5 m-index
論文が引用されるまでにはある程度の時間が必要であり,速報やレビューを除き,一般的な論文では発表後2-4年目に引用のピークが現れると言われている。h-indexの算出には論文数と被引用数が用いられるため若手研究者には不利だとされる。この点を配慮するため,h-indexと同時にHirschにより提案されたのがm-indexである。
m0t0k1ch1.icon 若手に不利過ぎるのは健全でないと思うし、1 つの指標で全ての研究者を完璧に評価する必要もないと思うので、もっと若手のモチベとなるような指標はあってもよいと思う
ある研究者のh-indexをその研究者の処女論文以降の経過年数で割った値がm-indexとなる。研究従事活動が一貫して継続されていることが前提となるので,研究活動を離れた期間のある研究者には不満であろう。当然のことながらm-indexはh-indexより小さい値となる。
m0t0k1ch1.icon 流石にちょっと雑いのでは。。。?
4.6 AR-index
h-indexはその算出定義上,一人の研究者において経時的に増加することはあっても減少することはない。一度成功すれば,数字上では永遠にその栄誉を維持することができる。変化の激しい学術研究の世界においてこの点を見過ごしてよいのか?
m0t0k1ch1.icon そうだそうだ!
異論や反論があると思うが,いわゆる成功の上にあぐらをかく(rest on their laurels')研究者の存在が指摘される以上,指標には経時的な増減があってしかるべきである。この問題点に着目し,発表論文の経過年数を要素として取り入れて考案されたのがAR-index(age-dependent R-index)である。Hirsch core内の各論文において各被引用数を,発表年と指標算出年の経過年数で割る(年間被引用数)。発表から3年を経過した論文が15回の被引用数を持つ場合には5回となる。この年平均被引用数の総和の平方根がAR-indexである。
m0t0k1ch1.icon h-index の課題だった「高被引用論文の情報が欠落する」と「研究期間に依存する(若手にとって不利)」を改善
m0t0k1ch1.icon できるだけ新しい論文の被引用数を増やせばスコアを上げることができる
m0t0k1ch1.icon スコアを保つには、高被引用論文をコンスタントに出し続ける必要がある
Jinらはh-indexとAR-indexのペアでの利用を,有意義(meaningful)な研究評価の指標として推薦しているが,同時に研究者の生涯にわたる期間を対象とするべきではなく,研究評価に適した一定の対象期間を設定して算出することが必要だとも述べている。
m0t0k1ch1.icon 1 つの指標で完璧に評価できる必要性は感じないので、混ぜこぜの指標をつくるよりも意図のわかりやすい指標が複数あった方がよいのかなと思う
4.7 e-index
まずHirsch core論文の被引用数総和からh-index値の2乗を引き,その差の平方根を持ってe-indexの値とする。例えば,h-indexが15で,Hirsch core論文の被引用数総和が500であった場合,$ 500 - 15^2 = 500 - 225 = 275であり,その平方根をとりe-indexは16.6と算出される。
m0t0k1ch1.icon h-index の課題だった「高被引用論文の情報が欠落する」は改善しているが、ちょっと複雑
m0t0k1ch1.icon 被引用上位論文の被引用数だけを増やせば(h-index を上げないようにしながら h-core の被引用数総和を上げれば)スコアを上げることができる
e-indexはh-indexやg-indexの算出時に切り落とされた被引用上位論文(excess citations)の情報を含み,被引用数の分布パターンを反映する指標として,特に上位にいる研究者や,同じh-index値を持つ研究者での利用が有効であると述べられている。
m0t0k1ch1.icon 自分の直感ではよくわからないけど、意外と妥当らしい
4.8 individual h-index
共著者の人数に着目した指標がindividual h-indexと総称されるものである。複数の共著者により発表された論文は,一人の研究者評価を想定した場合にはその割合を補正するべきだという考え方に基づく。individual h-indexは筆者が調べた限りでは3つの算出方法が報告されている。
(方法1)通常の方法で算出したh-indexをHirsch core論文の平均著者人数で割った値。hI-indexと記される。
m0t0k1ch1.icon h-index を割っちゃうパターン
(方法2)全論文の被引用数をそれぞれ共著者人数で割り,補正された被引用数を基に論文順位をつけて並べてからh-indexを求める方法。
m0t0k1ch1.icon h-index を計算する前に割っちゃうパターン
(方法3)被引用数を補正するのではなく,通常の被引用数順位値を共著者人数で割り,その累計を順位値としてh-indexを算出する方法。例えば1番目の論文が共著者2名,2番目の論文が共著者3名,3番目の論文が共著者4名だとした場合,論文順位は1,2,3ではなく,0.5,1.17,1.92となる。報告論文中ではhm-indexと記されている。
m0t0k1ch1.icon ややこいパターン
ただし,どの方法でも評価対象となる研究者のポジションは考慮されていない。つまりその論文のfirst authorなのか,あるいはcorresponding authorなのか,共著者の中での重み付けまでは行われていない。どの程度の加重が必要とされるのかは議論の分かれるところだが,共著者間の力関係は研究事情や分野により異なるので,その加重に関する一般的な提案はされていないようである。
m0t0k1ch1.icon これはしゃあないと思うので、むしろ共著の方のルールを整えた方がよい気がする(共著のパターンが色々あり過ぎる)
4.9 IQp
h-indexの欠点として指摘されてきた主なポイントとして,①h-indexは増加することはあっても減少しない,②発表論文の絶対量に依存する,③引用傾向が違うため異なる研究分野間での比較ができない,がある。これらの問題点を解決するために考案された新しい指標がIQp(Index of Quality and Productivity)である。研究分野の異なる研究者80名でI Q pを比較検討したところ,専門家評価レイティングとの相関性ではh-indexよりも良い結果が得られたという。
m0t0k1ch1.icon ① と ② は、前述した「研究期間に依存する(若手にとって不利)」
m0t0k1ch1.icon ③ は欠点なのか。。。?
正確にはIQpはh-indicesではない。h-indexの派生指標はいずれも基本的に論文数と被引用数を算出要素としているが,I Q pではこれに加え,研究活動年数と3つの研究分野でのインパクトファクターを考慮する。また被引用数もh-indexのように上位の被引用論文だけではなく,たとえ1回しか被引用がなくてもすべての論文の総被引用数を求めなければならない。これらの要素を計算に付加することにより,分野を超えた比較が可能となり,若手の研究者も対等に評価ができるようになるという。
m0t0k1ch1.icon 欲張り過ぎでは。。。?
その算出式を図2に示すが,多数の評価要素があるため複雑である。また,研究分野でのインパクトファクターを要素として持つため,限定されたデータベースが必要になる。このためh-indexに比べ汎用性が低く,今後研究評価指標として広まっていくかは疑問を感じる。そもそも研究分野の異なる研究者を比較する必然性があるのだろうか?
m0t0k1ch1.icon 同意
https://gyazo.com/bb4737178beeaa2e94e267c01ff0e971
4.10 h-b index と m-index
これまでの指標は研究者個人や研究機関を評価,比較するためのものであったが,h-indexの考え方を研究テーマに応用した例がある。ドイツの物性物理学者であるBanksは自身が研究テーマを選ぶ際に,研究が活発でかつ流行傾向にあるホットトピックを見つける指標を考案した(h-indicesを考案する研究者はHirschをはじめ,なぜか物理学者が多い)。
複数の思いつく研究テーマで論文検索を行い,そこにヒットした論文グループでh-indexを算出する。この指数をh-b indexと呼んでいる。さらにそのh-b indexを論文グループの中で最も古い論文の出版経過年で割ったものがm-indexであり(既出のm-indexと同じ計算方法),研究テーマの継続性を表す。$ \mathrm{m\mathopen{-}index} > 3であり,同時にh-b indexも大きければ現在も活発さが続いているホットトピックと見なす。逆にh-b indexが大きくても$ \mathrm{m\mathopen{-}index} \leqq 3であれば,それは過去に活発であった古い研究テーマと判断される。
m0t0k1ch1.icon 枠を研究者から研究テーマに変えたパターン
m0t0k1ch1.icon 冒頭で記載されていたように、研究評価の目的が「研究資金の適切な分配」なのであれば、それには使えるのでは?(テーマを選択するときではなく)
4.11 h-indices その他
h-indicesの中にはContemporary h-index,Trend h-indexおよびNormalized h-indexと言われる指標が提案されている。算出方法が既出の指標に似ているものもあるが,興味のある方は一読いただきたい。
m0t0k1ch1.icon まだあるらしい
https://gyazo.com/502333023d43f56d44b5fc40dd92888a
https://gyazo.com/2af22bfa7f1a56d25380830dc8750b86
m0t0k1ch1.icon この表は good job
---.icon
5. データべース選択時の注意
すべての指標において論文数や被引用数の把握が算出のために必要である。現在これらの情報が入手できる国際的なデータベースとしては,エルゼビア社のScopus®,トムソン・ロイター社のWeb of Science®,Google Scholar,ACSのSciFinder®であろう。Scopus®とWeb of Science®では既にh-indexの計算機能が実装されており,Google Scholarでは各指標をまとめて自動計算するフリーソフトも登場している。
m0t0k1ch1.icon 論文データベース
---.icon
6. 被引用数に代わる情報要素は?
これまでの評価指標は論文数と被引用数のみを評価要素として算出されてきた。被引用数は論文の影響度を計る際に役立つ要素であることは広く認知されているが,他にも論文の質を推し量る要素があってよいのではないか?
m0t0k1ch1.icon ですね
一つは,電子ジャーナルの登場によって客観的に数値化できるようになったダウンロード数かもしれない。特に企業に属する研究者は研究成果を論文として発表する数は少ないが,研究の関連論文は非常に多く読まれる傾向がある。閲覧だけでは残念ながら被引用数にはカウントされないが,潜在的に他の研究者に影響を与えた情報となるのではないか。ScienceDirect®の例では,2008年に約5億回のダウンロードがあったので,全収録論文で平均化しても一論文あたり53回という数字になる。
m0t0k1ch1.icon ダウンロード数と被引用数は別軸の話だと思うけど、時代に合った指標へのシフトを検討するのは然り
m0t0k1ch1.icon が、引用に基づいて体系立っている論文の世界は興味深い構造になっていると思うので、別の指標を模索するというよりは、引用のあるべき姿を突き詰めるようなスタンスの方が本質的なのかなと思ったりはする
---.icon
7. おわりに
社会的な活動実績を定量的に評価しようとする試みは,何も研究活動が初めての対象ではなく,これまで教育や医療の世界でも実施されてきた。英国のGoldsteinらは,そのような評価活動のワークフローを構成する枠組みには,①データ,②統計分析,③解釈,の三要素があると説明している。本稿において紹介してきた指標はすべて統計分析要素に属するものであり,その単純化された指標の数字だけが一人歩きをしてはならない。最も重要なのは指標の「解釈」であり,評価指標としての意味,妥当性や限界性を十分に理解する必要がある。
また,これまで単独で研究評価ができるような完全な指標は存在しない。指標を研究評価に利用する場合には,単一の指標に限定するのではなく,複数の指標を目的に応じてうまく組み合わせ,「解釈」するテクニックが求められてくるだろう。
m0t0k1ch1.icon 良くも悪くも正論だなあという感じ
---.icon
m0t0k1ch1.icon memo
h-index family の中で、h-index とは違う方向性で妥当だなあと思ったのは AR-index くらい。ただ、この中だと、やはり最初に提案された h-index のセンスは光っているように思う。捨てているものもあるけれど、シンプルで意図が明確。これを土台にこねこねするのはそんなに難しいことではない。