pandas
いよいよ1.0になりそう。 @20200112
参考記事
データ加工のまとめ記事
pdfは検索しにくいか、、、頭に焼き付ける際には便利
DataFrameとSeries
tips
query, filter, select_dtypes, groupby()['hoge'].value_counts().unstack, tqdm.pandas
assignはdataframeを受け取ってキーワード引数にseriesをassign.
pipeはdataframeを受け取ってdataframeをreturn
pipeは、まずは行の選択用途かな。
dataframe, series, groupbyオブジェクトについて使える(v21から)
groupbyの引数で、lambdaを使いたい(ある特定の文字を含むとか...)
byにcallable(lambdaとか)を使う場合に,引数にそのデータフレームのindexが渡るようなので、set_index()しておく。
が、np.whereを使ったほうが、手元でははやかった。下記で、 %%timeit -n 10で見た場合。
code:test.py
(ga.
set_index("sourceMedium").
cond = np.where(ga.country == "Japan", "japan", "ex-japan")
ga.groupby(cond).sum()
気をつけること
私としてはpandasにデータセットのサイズの5倍から10倍のRAMを用意することを大まかなルールとしています。
16G, 32Gのメモリなら、1Gくらいのデータを上限としておいたほうがいい。
参考:
https://gyazo.com/520bee1580b26f167ad3826f406c2732