評価の厳密な数値基準を設けると研究者はみんな頭がいいのでそれに最適化された行動を取ってしまう