そもそもデータってなんだ
伝達、解釈、処理などに適するように形式化、符号化されたもの、または再度情報として解釈できるものをいう。与件または所与ともいう。英語の「data」「datum」はラテン語・イタリア語の dare(ダーレ、「与える」)を語源とする。中国語では「資料」(ツーリャオ)または「數據」(シューチー)ともいう。
直面している問題の解決や、意思決定に役立つか否かという観点から、データと情報を区別する場合もある。その場合においてデータとは、情報を生みだすための素材のことを呼び、データのなかの問題解決に役立つ材料のみを情報とよぶ。データを受けとった人によって、さらにはその人の状況によって、データであるか情報であるかは変化することになる。
端的に言うと、意味のあるデータが「情報」である。
「意味のあるデータが「情報」である」というように、遺伝子とDNAの関係に似ている。DNAはデータであり、遺伝子は遺伝情報を指す。DNAは遺伝子を構成する。ここには主従関係が存在する。
統計的な話をすると、そもそもデータにはいくつか種類があるらしい。
量的データ
”数値で推し量ることができ、数字の大小に意味をもつデータ”。連続データ(時間、気温など細かく測定可能なデータ)、離散データ(人数や回数など非連続的な、分割可能な最小単位が決まっているデータ)がある。
質的データ
”分類や種類を区別するためだけのデータ”。好きなひとや血液型、自動車ナンバーなど。解析や分析にかけることができるのは基本的に量的データなので質的データは定量化する必要がある。
フローデータ
”一定期間に流れた変化量などを表すデータ”
新型コロナウイルスによる感染者数の推移とか
ストックデータ
"ある時点において蓄積している量などを表すデータ"
一日あたりの雨量の合計や新型コロナウイルスによる総死者数の推移などはこれにあたる
こうしたデータを分析の目的に沿ってまとめたものが"データセット”であり、これは #表 に通じる。 似たようなことが書いてある