pandas
User Guide — pandas 1.2.0.dev0+319.ga09259b56 documentation
pandas: powerful Python data analysis toolkit — pandas 0.25.3 documentation
Top features of Pandas 1.0 - Towards Data Science
いよいよ1.0になりそう。 @20200112
参考記事
データ加工のまとめ記事
pandasで条件分岐(case when的な)によるデータ加工を網羅したい - Qiita
#cheatsheet
https://github.com/pandas-dev/pandas/blob/master/doc/cheatsheet/Pandas_Cheat_Sheet.pdf
pdfは検索しにくいか、、、頭に焼き付ける際には便利
DataFrameとSeries
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html
tips
#moden_pandas
Kaggleで使えるpandasテクニック集 - 天色グラフィティ
query, filter, select_dtypes, groupby()['hoge'].value_counts().unstack, tqdm.pandas
assignはdataframeを受け取ってキーワード引数にseriesをassign.
pipeはdataframeを受け取ってdataframeをreturn
pipeは、まずは行の選択用途かな。
dataframe, series, groupbyオブジェクトについて使える(v21から)
groupbyの引数で、lambdaを使いたい(ある特定の文字を含むとか...)
DataFrame を集計。インデックスで groupby-python | コード7区
byにcallable(lambdaとか)を使う場合に,引数にそのデータフレームのindexが渡るようなので、set_index()しておく。
が、np.whereを使ったほうが、手元でははやかった。下記で、 %%timeit -n 10で見た場合。
code:test.py
#こんな感じ
(ga.
set_index("sourceMedium").
groupby(lambda x: bool(re.search("organic",x))). #bool()にするのもポイントかも...
#groupby("sourceMedium").
sum()'entrances').nlargest(5)
#以下の形も見やすいかも。こっちのが早そう...だが、上のが記述が楽。
cond = np.where(ga.country == "Japan", "japan", "ex-japan")
ga.groupby(cond).sum()
気をつけること
(翻訳)Apache Arrowと「pandasの10項目の課題」 - Qiita
私としてはpandasにデータセットのサイズの5倍から10倍のRAMを用意することを大まかなルールとしています。
16G, 32Gのメモリなら、1Gくらいのデータを上限としておいたほうがいい。
参考:
Python/pandasのデータ処理で再帰代入撲滅委員会 - Qiita
10 Minutes to pandas — pandas 0.22.0 documentation
https://gyazo.com/520bee1580b26f167ad3826f406c2732
#cheatsheet
3-Clause BSD License