ユーザ評価の落とし穴

　人間が利用するシステムを作るときは必ずユーザテストが必要です。開発の初期段階において客観的な他人の目で見てもらうことにより、問題を早期発見することができますし、全くスジが悪いようであれば最初から考え直すこともできます。ユーザ評価の専門家であるJacob Nielsen氏によれば、ごく少人数のテストユーザにでも評価してもらうことによって劇的に問題点が減るのだということです。

　完成したシステムについてもユーザ評価は重要です。新しいユーザインタフェースシステムを開発した研究者は、学会で論文を発表することによってそのシステムを世に広めるのが普通ですが、論文を発表するためには、識者による論文査読を通過する必要があります。新規でないシステムや有用でないシステムなど、発表する価値が無いシステムは査読の段階で問題点が指摘され、論文として発表されないようになっています。このとき、実際のユーザがそのシステムを使ったときのデータは、システムのよしあしを知る重要な手がかりとなるので、論文が採録されるかどうかを大きく左右する要素となります。また、ユーザによる評価が行なわれていない論文はそもそも採録の価値無しと判断される可能性が高くなってしまいます。

　定量的なユーザ評価結果を得ることができれば様々な数値的解析を行なうことができますから、論文はより科学的な体裁を帯びることになります。「新しいシステムを使いやすいと答えるユーザが多かった」という記述よりは「100人のユーザに対して新旧システムを1週間利用させたところ作業効率が30%上昇した」という記述の方が説得力があるでしょうし、「統計的検定を行なったところ p値 < 0.05で有意差が観測された」などと言うとさらに説得力がアップするでしょう。システムのよしあしそのものよりも、ユーザ評価の質が高いかどうかによって論文の評価が変わってくることになります。

　コンピュータ科学に関する世界最大の学会であるACM(Association for Computing Machinery)では、毎年ユーザインタフェースに関連するCHI (Computer-Human Interaction)コンファレンスを開催しており、インタフェースシステムに関する数多くの論文が発表されています。発表論文の統計を調べた結果によると、最近のCHIコンファレンスで発表される論文のほとんどにおいてユーザ評価結果が記述されているということです。論文中でユーザ評価について述べられている率は毎年増えており、2007年の論文集では70%の論文において定量的評価が記述されており、25%の論文において定性的評価が記述されていました。実に95%の論文において、なんらかの形でユーザ評価に関する記述が行なわれていたことになり、ユーザ評価について記述していない論文はほとんどリジェクトされたのだろうと考えられます。

http://gyazo.com/5a27c6aa6fd9b9ee502f3f6a37df7aa6.png

CHIコンファレンス論文にユーザ評価が含まれる割合

　システムの開発時にユーザ評価が重要であることは間違いないのですが、ユーザ評価結果を重視しすぎると問題が出ることがあります。また、きちんとした定量的評価をしない限り論文が採録されない(ように思われる)ことにも弊害があります。最近はユーザ評価を重視しすぎることに関して疑問を感じる研究者も増えているようで、著名なインタフェース研究者であるBill BuxtonとSaul Greenbergは、「Usability Evaluation Considered Harmful (Some of the Time)」という論文でユーザ評価偏重主義の問題点を論じていますし、MITのHenry Liebermanも、「The Tyranny of Evaluation」という記事で問題を提起しています。これらの資料では、開発に際してユーザ評価に重点を置きすぎた場合は以下のような弊害があると述べています。

新規性があるシステムについてデザインの初期段階でユーザ評価を行なうと、現存のインタフェースと似ていないという理由で低い評価しか得られないことがある。

先進的なものを試す場合、未熟な部分が少しでもあれば、そのために良い部分が隠れてしまい、低い評価しか得られないことがある。

普通のユーザは積極的に新しいシステムを利用しようとは思わないものなので、文化的に技術がどのように受け入れられていくかを長期的に考える必要があるが、短期的なユーザ評価ではこれがわからない

既存のシステムに慣れたユーザは、それとは異なるシステムを「直感的でない」と感じてしまい、低い評価を与えてしまいがちである。

また、新しいインタフェースに関する論文を書く場合、以下のような弊害が出ると述べられています。

全く新しい「大発明」は既存のシステムと比較することが難しいため説得力のある評価結果を得ることができず、論文として採録されにくい。

既存のシステムと数値的に比較できるものの方が簡単に評価実験を行なうことができるため、全く新しいシステムについて考えるよりも、小さな改良について研究しようとする人間が増えてしまう。

既存システムとの比較実験は恣意的である可能性がある。既存システムと少しでも違う点があれば、特定の状況において既存システムより優れた評価結果が得られる可能性は高いが、新しいシステムが全体的に既存システムより良いとは限らない。

これらの問題に加え、私は以下のような点についてユーザ評価が信頼できないと感じています。

そもそも人間はあやふやなものなので、信頼のおける評価実験を行なうことは難しいにもかかわらず、追試実験が実行されたり論文になったりしていることはほとんど無い。

評価実験では会社の同僚や研究室の学生が被験者として実験が行なわれることが多いが、システム作成者と関係がある被験者の場合、上司や指導教官のシステムを低く評価することは難しいと思われるので、同僚や指導教官が作成したシステムを高く評価してしまう可能性が高い。

システムのよしあしは長期的に利用してはじめてわかることも多いし、短期的な実験における印象と長い間使った後の印象は異なることも多いが、大抵の論文では短期的な評価実験しか行なわれていない。

　MITのメディアラボ所長だったNicholas Negroponteは、著書「Being Digital」において、「私はインタフェース研究におけるテストやユーザ評価はくだらないと思っている。傲慢かもしれないが、丁寧に調べなければ違いがわからないようなものはそもそも大した違いが無いのだ。」と述べています。Negroponteがこう言ったのは1995年のことですが、その後もずっとCHIコンファレンスではユーザ評価の比重が高くなっていったのは残念なことです。最近のCHIコンファレンスでは、本論文のセッションは評価の話が多いので人気が無く、ショートペーパーやポスターセッションの方は多くの人が集まっているという状態が続いていました。

　ユーザインタフェースに関する国内ワークショップWISS (Workshopn on Interactive Systems and Software)では、2010年からユーザ評価の有無を査読基準からはずすことになりました。学会での評価偏重主義が少しでも改善されることを期待したいと思います。