データ分析
/mrsekut-book-4802612907/111 (6.2 データの分析操作)
#WIP
どうやっても手続き的になりがち
普通のコードとは異なることを意識して書く必要がある
宣言的に書きづらいし、関数を使って処理に名前をつけるということもしない
実験群と統制群などに対しては関数を使って同じ処理を施すのが良い
上から順に読むことを意識する
逐一、コメントを入れる
やってることとか、やってる理由とか
適宜、実データの内容を残す
df.describe()とかdf.head()とかdf.columnsとか
実際にやっているときは、別のviewで見てるので不要だが、
後で見るときにわざわざ実行しなくて済む
あと、copilotにデータの中身を見せることができるので補完も効いて嬉しいmrsekut.icon
データの管理
ディレクトリ構成
Data Mart的に整理する
https://qiita.com/suikabar/items/f713412977743e08d5bf
https://pbpython.com/notebook-process.html
データ収集
分析
データの観察
データの前処理
前処理に80%ぐらいの時間がかかるものらしい
仮説に対する検証をする
この仮説を検証したいというときに、どういう軸でどう表示すればそれを示せるのかを考える
小さく分けて分析する
雑に分析→分けて再度分析というのを繰り返すことになる?
その分けるロジックは上の方にもっていくことになる
データ分析のレビュー
https://note.com/statditto/n/nd8ad5ed0a682
https://www.slideshare.net/TokorotenNakayama/ss-124121978
Good Data Analysis
https://developers.google.com/machine-learning/guides/good-data-analysis
google
https://shunyaueta.com/posts/2022-03-08/
https://github.com/mrsekut/MachineLearning/blob/master/DataAnalytics.ipynb
https://github.com/mrsekut/MachineLearning/blob/master/DataAnalytics/titanic.ipynb
https://qiita.com/kakiuchis/items/db57e4df1cdab3f6bfb9
https://speakerdeck.com/shinu/myth-of-data-analytics