テーブルデータ
from データハンドリングと前処理
適切なデータの持ち方とは?
これはとてもよくあるExcelの表ですが、 これは適切でしょうか?
https://gyazo.com/7c3467cbc0541dbdce0ca4db941c6424
データ表現の鉄則
「人間にとってわかりやすいデータ」と「コンピュータにとってわかりやすいデータ」は異なる
https://gyazo.com/5610785b0437880242a681d214ebbbd1
テーブルデータ
多くのデータ分析において、データはテーブルデータの形式で持っておく必要がある
統計局「統計表における機械判読可能なデータの表記方法の統一ルールの策定」(2020年12月18日)の「別紙」、「統計表における機械判読可能なデータ作成に関する表記方法」にはテーブルデータとしてデータを整理するための基本がよくまとまっている
テーブルデータの形式
以下のように変数と値が表形式で整理されたデータ
https://gyazo.com/146f446873a2687ff330d02a7563cf60
縦の並び(列(column))は変数(項目、フィールド)を表わす
同じ種類のデータを同じ列に入れる(複数種類のデータを1列に入れない)
横の並び(行(row))は1件1件のデータ(レコード、インスタンス)を表わす
1行目は変数名(項目名)とする(ことが多い)
1つひとつのセルには1つの値のみを入れる(複数のデータを入れてはいけない)
このような形式のデータをテーブルデータという
構造化データとも呼ばれる
この形式でまとめられたひとかたまりのデータをテーブルとよぶ
テーブルデータの重要性
基礎的な記述統計から、推測統計、多次元分析、また機械学習等の統計的分析まで、コンピュータを用いたデータ分析においては多くの場合、実行する際には、このような形式のデータを用意しておく必要がある
データが構造化されているため、列単位での集計、検索などがしやすい
RDB(relational database)のようなデータベースやCSV(comma-separated values)ファイルなどで管理することが多い
RやPythonなどでデータを扱うときには、テーブルデータになっていればそのままデータフレームとして読み込んで利用できる
(参考)Excelにおけるテーブルデータの扱いの注意点
Excelにおけるテーブルデータの扱いの注意点