pandas - 未来の自分を助けるメモ

pandas

いよいよ1.0になりそう。 @20200112

参考記事

データ加工のまとめ記事

pdfは検索しにくいか、、、頭に焼き付ける際には便利

DataFrameとSeries

tips

query, filter, select_dtypes, groupby()['hoge'].value_counts().unstack, tqdm.pandas

assignはdataframeを受け取ってキーワード引数にseriesをassign.

pipeはdataframeを受け取ってdataframeをreturn

pipeは、まずは行の選択用途かな。

dataframe, series, groupbyオブジェクトについて使える(v21から)

groupbyの引数で、lambdaを使いたい(ある特定の文字を含むとか...)

byにcallable(lambdaとか)を使う場合に，引数にそのデータフレームのindexが渡るようなので、set_index()しておく。

が、np.whereを使ったほうが、手元でははやかった。下記で、 %%timeit -n 10で見た場合。

code:test.py

(ga.

set_index("sourceMedium").

groupby(lambda x: bool(re.search("organic",x))). #bool()にするのもポイントかも...

sum()'entrances').nlargest(5)

cond = np.where(ga.country == "Japan", "japan", "ex-japan")

ga.groupby(cond).sum()

気をつけること

私としてはpandasにデータセットのサイズの5倍から10倍のRAMを用意することを大まかなルールとしています。

16G, 32Gのメモリなら、1Gくらいのデータを上限としておいたほうがいい。

参考:

https://gyazo.com/520bee1580b26f167ad3826f406c2732