kaggle本第3章 - kaggle-friends

kaggle本第3章

第３章　特徴量の作成

3.1 本章の構成

3.2 モデルと特徴量

3.3 欠損値の扱い

NN使うときの欠損値取り扱いが大変だと感じます、普段みなさんどうしてますか？wakame.icon

データ見て中央値にするか、平均値にするか、最頻値・・・って感じwakame.icon

0埋め、最頻値・平均などが多いですかね。面倒ですよねcurrypurin.icon

基本レコードは消さないで対応するのが基本になってるのかな?

3.4 数値変数の変換

その他の非線形変換(P.130)

四捨五入・切り上げ・切り捨てを行う

小数点以下を取り出す特徴量エンジニアリングの解釈と実装wakame.icon

価格設定を200円ではなく、198円にするとお得に見える

端数部分を特徴として使う

Column データ全体の数値を利用して変換を行うときに、学習データのみを使うか、テストデータも使うか

お仕事では当然テストデータと訓練データを合わせて変換するなんて芸当は不可能、Kaggleというコンペの仕組み上できるからやるwakame.icon

LBProvingも似たような話でできてしまうからやる、こういうのはルールなりシステムで縛らない限り参加者はやると思う

以前の輪読の時に出てきた、このWebページの次の文言どういう意味でしたっけcurrypurin.icon

交差検証で精度を見る上で特徴量を作成するとき、知っている人にとっては当たり前ですが初心者にありがちなミスを話しておくと、平均値や中央値、分散などの統計値を利用するプロセスは交差確認の中で行わないと正しく精度を求められないことがあります。 Kaggleで世界11位になったデータ解析手法〜Sansan高際睦起の模範コードに学ぶ - エンジニアHub｜若手Webエンジニアのキャリアを考える！

僕の理解ですが、例えば標準化を行う場合、CrossValidation前に標準化を実施するのではなく、CrossValidationの中でtrainの平均・標準偏差を計算し、その値を用いてvalidの値も標準化を実施すべき、という考え方だと思います。kaggle-jaの回答の方も同様の意見に見えます。testに対しては、train全体の平均・標準偏差を利用するのかなと思います。sinchir0.icon

高際の言っているのは、実務の話なんですかね？

3.5 カテゴリ変数の変換

3.5.5 target encoding (P.142 - P.150)

target encodingのリーク対策の一個として、smoothingも有名かなと思うので関連サイト貼っておきます。

この式はni の数が十分に大きければ第一項の影響が大きくなり普通のTargetEncodingと同じような値を示す。一方で niの数が小さいと第二項の影響が大きくなりデータセット全体の目的変数が1の割合に近づく。

niはデータ数ですね。niが大きい時は普通のtagtet encoding 小さい時はデータ全体の目的変数の確率に近くよう補正をかけるイメージですねsinchir0.icon

target encoding する際の fold の切り方を毎回迷います。(二段階 CV する必要があると思うのですが特に二段目の方) nyk510

Category Encoders Doc

target_encodingするならcategory_encordersというライブラリが便利という話wakame.icon

Target Encoder

smoothing effect to balance categorical average vs prior. Higher value means stronger regularization. The value must be strictly bigger than 0.

smoothingも対応してます

Category Encodersのすゝめ【AI道場「Kaggle」への道 by 日経 xTECH ビジネスAI① Advent Calendar 2019 10日目】

3.6 日付・時刻を表す変数の変換

時系列コンペでよく使用されるsin, cosへの変換とは - Qiita

3.6.2 日付・時刻を表す変数の変換による特徴量(P.156 - 159)

Github - Lalcs/jpholiday

休日かどうかの休日フラグは大抵効くので毎回作ってる、jpholidaysは2019年->2020年への変則的な休日変更にも対応してくれているwakame.icon

Signateの公園コンペでは効きましたwakame.icon

各国の休日はpandasに確かあったはず

https://stackoverflow.com/questions/29688899/pandas-checking-if-a-date-is-a-holiday-and-assigning-boolean-value

from pandas.tseries.holiday import USFederalHolidayCalendar

3.7 変数の組み合わせ

Python: featuretools ではじめる総当り特徴量エンジニアリング

featuretoolsで組み合わえ特徴量作れたのをこちらの記事を読んで初めて知ったwakame.icon

merge, groupbyを使わなくてよくなるのでコードは綺麗になると思ってます

3.8 他のテーブルの結合

Qiita - featuretoolsで特徴量を自動生成して機械学習モデルの構築を楽に早くする手法

これもfeaturetoolsの話だがkaggle - home-credit-default-riskを例に複数テーブルについて集約関数を適用する例が書かれているwakame.icon

この例カテゴリ変数をone-hotencodingしてるから時間かかってるのかも

なんでgbdtなのにone-hotencodingしてるのかは不明

追記 KaggleDaysTokyoにて

非常に面白いと思ったのが, label encoding と one-hot encoding の比較です. Kaggleではlabel encodingの方が良く使われる傾向にあるのですが, 実験上ではone-hot encodingの方がパフォーマンスが全体的に良いことが確認されました. 特にlabel encodingだとハイカーディナリティなカテゴリ変数に対してoverfitしやすく, one-hot encodingはlabel encodingよりは多少overfitが軽減されています (恐らく今回の実験用データセットがシンプルだから).

https://speakerdeck.com/rsakata/how-to-encode-categorical-features-for-gbdt

https://www.wantedly.com/companies/wantedly/post_articles/199502

3.9 集約して統計量をとる

3.9.2 時間的な統計量をとる (P.168)

Facebook Recruiting IV：Human or Robat?

Kaggleの「Facebook Recruiting IV：Human or Robat?」は、オークションサイトの入札が人間とボットのどちらによるものかを判別するタスクでした。ボットはたくさん入札し、また速く入札するという知見から、入札回数の平均と入札間の間隔の中央値を特徴量とする方法がとられていました注17。

注17のkaggle blogのリンクが消失していたので当時のディスカッションのリンクを下に貼ったwakame.icon

https://www.kaggle.com/c/facebook-recruiting-iv-human-or-bot/discussion/14628

http://small-yellow-duck.github.io/auction.html

入札回数の平均と入札間の間隔の中央値を特徴量にした、Bidding action over timeの項のグラフがわかりやすい。Botと人間の入札間隔はBotのほうが早いことがわかる。

検索したら出てきた日本人参加者の方の解法

http://techtipshoge.blogspot.com/2015/06/facebook-recruiting-iv-human-or-robot.html

3.9.5 ユーザ側でなく、アイテム側に注目する(P.169)

特別な商品に注目する(P.170)wakame.icon

ユーザの行動や属性のポイントとなるような商品があれば、そこに注目するのも良いでしょう。 Kaggleの「Instacart Market Basket Analysis」の2位のソリューションでは、オーガニック、グルテンフリー、アジアのアイテムに注目していました。

https://github.com/KazukiOnodera/Instacart/blob/master/py_feature/008_product_feature.py

https://github.com/KazukiOnodera/Instacart/blob/master/py_feature/104_organic.py

user_id毎に集計してカウントしている