データクレンジングとIRモンスターデータ
カテゴリ:
hr.icon
現実のデータは「汚い」……
これは、データ分析を行う人なら誰しも共感するところではないでしょうか。データ構造が十分に設計されないまま蓄積されたデータは「汚い」ので、そのままでは分析できません。分析の前に、「データクレンジング」もしくは「データクリーニング」と呼ばれる作業が必要です。 データクレンジングとは、データベースに保存されているデータの中から、重複や誤記、表記の揺れなどを探し出し、削除や修正、正規化などを行い、データの品質を高めること。
具体的な手法はデータの種類により千差万別だが、一般的な例としては、全角文字と半角文字の違いや、空白文字や区切り記号の有無、人名の異体字の誤りや姓名の分割・併合、法人名の表記(株式会社と(株)の違いなど)、住所や電話番号の表記法などが対象となり、それぞれについて表記ルールを決めて修正・削除などを行なっていく。
いわゆるデータの「前処理」です。集計、分析、可視化などの「本作業」よりも、ときにはこの「前処理」のほうがはるかに労力を要することもあります。 IRにおいても、これはもちろん例外になく……いや、むしろIR担当者は、この大変さをより実感しているのではないでしょうか。というのも、日本では「IR的なものの重要性」が認知され始めたのはそう遠い過去ではないので、分析に適した形でデータを蓄積しておく、という意識は従来生まれにくかったものと思われるからです。また、頻繁に起こる「改組」とそれへの対応など、大学特有の文脈もあり、データ構造の設計が甘かったりツギハギだったりすることも多いものと思います。 そのような背景をもつ現在のIRでは、「さまざまな部署からデータをかき集める」、「学内に散在するデータベースを一元化する」、といった表現が頻繁に使われるように、学内においてバラバラに管理されてきたデータをまず集めたうえで、これを分析可能な形にする「データクレンジング」を行うことがどの大学でもよくなされているのではないかと思います。 それこそ奇々怪々な、モンスターのようなデータに出くわすこともしばしば。たとえば私は以下のようなモンスターに遭遇したことがあります(多少ディテールは変えてあります)。きっと同じようなモンスターと戦ったIR担当者も少なからずいらっしゃるのではないでしょうか。
(事例1)
この科目群の履修者数を調べてほしい、という依頼を受けたので、集計し一覧表にしたところ、ある科目の履修者数が0人だった。元データにはその科目がちゃんとあるし、計算式も間違っていない。ひたすら確認作業を進めること1時間。よくよく見ると、「この科目群について集計してくださいね」といって渡されたリストにあった授業コードの先頭文字が、なんと全角になっていた。そのため、コードでの紐付けができていなかったのである…… (事例2)
学生アンケートの集計をしていたが、ある設問の回答数が、なぜかゼロになってしまう。計算式は……今回も間違っていないようだ。なんで? 僕なんか悪いことした? ……ひたすら確認作業を進めること2時間。某業者に集計を委託したという元データをよくよく見ると、回答の選択肢を表わす数字のあとに、なぜか半角スペースが入っていた。まじか。 (事例3)
とある学部の全科目の成績分布を集計することになったので、教務システムに入っている成績元データからさくっと集計してみた。しかし、集計表を眺めると、なんとなく微妙~に各科目の履修者数が多い気がする。その学部の担当者に確認してみると、やっぱりどうやら微妙~に多いようである。やっぱり僕はなんか呪われてるのだろうか。 ……ひたすら確認作業を進めること3時間。そういえばこの学部では、3年次から特別なコースに若干名配属できるようになっているんだった。いやな予感がする。恐る恐る成績元データの学生の所属フィールドをみてみると、3年次からそのコースに配属された学生については、同一の科目の成績について、所属に1年次のものが入っているものと、3年次以降のものが入っているものの2種類が存在していたのである。そのコースに配属した数名分だけ2重にカウントされていたのだ。このコースの配属は先述のとおり若干名なので、微妙~にしか数字が違わないことになる。気づいた自分をほめてあげたい。
https://gyazo.com/a42af632ba9d2c54d5084a301dd3c588
と、こうした事例は枚挙にいとまがないと思われます。モンスターと戦闘すると、HPもMPも削られていきますね。
真面目な話、こうしたモンスターは、効率の面でも、正確さの面でも、分析作業に大きな影響を与えます。本当に恐ろしいのは後者かもしれません。場合によっては、モンスターから攻撃されたことにすら気づかずに、間違った集計結果を公開している可能性もあるのです……。上の「事例3」などは、そうした「気づきにくい狡猾なモンスター」であったといえるでしょう。
モンスターに出会ってしまったとき、どのように撃退するか? それには、ある種の慣れや「データ勘」のようなものも必要でしょうし、その大学の制度や、経緯、文脈に精通していることも重要になるでしょう。そして、都度都度撃退するだけでなく、「今後モンスターを生まないための対処法」を考えることが大切になると思います。ここでは、各部署とのコミュニケーションも重要になってきます。
こうした「IRモンスターデータあるある」と、それの撃退方法、そして今後モンスターを生まないための対処法などについて、事例を持ち寄って議論する、なんてことをしてみてもいいかもなあ、と思ったりしています。SDとしても、いいかも? 大学全体で、データリテラシーを向上していけるといいですね。 ※当コラムの文責及び著作権は、すべて投稿者に帰属します。