データクレンジング
上のデータをダウンロードして、以下をやってみましょう
たとえばこんな例
あなたは大学の教務課職員です(と思ってください)
某部署の担当者より、「これらの授業について成績分布を出してください!」と依頼があり、Excelファイルを受け取りました
上のデータの「集計対象の授業コード」のシートです
https://gyazo.com/24123bf3e87aad649e7fb093745a23d6
「集計」のシートには、あらかじめ、「科目リスト(マスタ)」と「成績元データ」の2つのシートにあるテーブルをもとに、成績分布が集計される集計表が作っておきました このシートのA列に授業コードを入れると、B列以降の計算式が計算され、集計結果が自動的に表示される
なので、このA列に、上の「集計対象の授業コード」のA列の授業コードをコピペすれば、それだけで集計結果が表示されるはず!
・・・ということで、データをコピペしてみると・・・
https://gyazo.com/e01e4c535612a5340ca67fb1966b4bc2
いずれの授業コードも、結果が正しく表示されません!
何がおかしいか、みやぶってください
ちなみに「科目リスト(マスタ)」は下のようになっています
https://gyazo.com/517a298273bd74b93320473238d95e39
(答えは下のほうにあります。まずは、見ずに考えてみましょう)
答えは・・・
https://gyazo.com/e39cd1da1f5c1e17980c565082ce5536
データクレンジング
生のデータは「汚い」
手作業で入力されたデータはとくに…
データをきれいにして「分析できる状態」にするデータクレンジング(データクリーニングともいう)が必要
データの「汚さ」のさまざまな種類
表記ゆれ
入力ミスによるデータの形式違い
半角・全角の混在
目に見えない文字の混入
印刷できない制御文字(改行など)の混入
スペースの混入
データの欠損
正しくテーブル形式でデータが入力されていない場合(セル結合など)
データクレンジングの方法