機械学習まとめ
概要
論文,タスク,データセットをまとめる
元々記憶力が人より悪く,心躍るものしか記憶できない傾向にある.
受験の時と同様に暗記物として暗記しないと一生頭に入らなそうなのでメモ
Term
U-Net
Task
VRR (Visual Releationship Recognition) Dataset
Natural Language Inference. 前提と仮説の二文が正しい・矛盾・どちらとも言えないのどれかを推測
画像+テキストによるVQA.画像に含まれていない知識を要する質問に回答するタスク
分子グラフの量子特性を予測させるタスク
CGで作られたVQAデータセット.個数や物体の形状・色を答えさせるQAも存在.
compositionalなVQAタスク用.CLEVRと異なり実環境.MSCOCOとVisualGenomeで作られている.シーングラフから生成されるのでアノテータが介在せずVQAv2よりもhuman-centricな傾向が抑えられている.
画像に対して,「ある人物がなぜ〇〇をしたか」を理由も付きで答える.理由と答えは選択肢方式
image captioning用.MSCOCOよりもクラス数が多く,testにはtrainにほとんど含まれていないクラスも存在する(なのでnovel).
Dence Captioning. Detection + Captioning のイメージ.領域にrichなcaptionを付与させる.
Robo-VLN
連続空間におけるVLNタスク.Nav-Graphは当然与えられない.かなり滑らかに動く.ICRA18
RoboTHOR
めちゃくちゃ近いSim / Realの環境を提供する.CVPR20
Occluded COCO & Separated COCO
遮蔽された物体を検出する.(e.g., 人の後ろにある車)
ProcTHOR
手続き的に無限の3D室内環境を構築できる
RobustNav: Towards Benchmarking Robustness in Embodied Navigation
カメラの破損(crack)やエージェントの車輪の故障などを考慮したVLNタスク
TRICD
groundingタスクでは,参照文に含まれる物体が必ず存在するという仮定があるため,モデルを過大評価しがち
ManiSkill2 (ICLR23)
関節物体等を含む物体の操作タスク (e.g., 剛体,水,土)
BusyBot (CoRL22)
多関節物体の操作タスク
Vision&Language
OTTER : 最適輸送によって0-1で対照学習していたCLIPを改良.
VLモデルのVisionモジュールは言語特徴量を使わないので,「りんごの個数」などのタスクに答えられない.そこで,visionとlang.を中間でspatial / channel方向にmixさせるモジュールを提案
CLIPが使用したデータセットはnoisyなので,クリーニングしながら学習.Image Captioningができる. DUET : localとglobalを統合してVLNを解く.global情報としてグラフを構築する.ノードにはviewの埋め込み表現を.
open-vocab.な物体検出モデル.RPN→特徴量をCLIPに通してMatrixから物体検出. HAMT : VLNを解く.text, history, viewをUNITER形式で入力とするTransformer
画像全体を使いたいためBBOXを使うregion-baseだと良くない.パッチをクラスタリングして,プロトタイプを埋め込みに使用するためBBOXを用いずに学習.VQAやImage Retrievalを解く. ViLLA : 各モダリティに摂動を加えて学習する.敵対的サンプルに対する頑健性を高める.
物体検出を言語モデルの枠組みで解く.EOSが出るまでがBBOX候補なので,検出漏れを防ぐ目的でEOSを遅らせるために,偽のBBOX情報をGTにconcat
tripletの各領域をメッシュ状のTransformerに入れてtripletの関係性を学習
拡散モデルからAttention mapを作成
MuKEA : scene graphを作るのではなく,埋め込みによるtripletでVQAタスクを解く.
scene graphの作成を自動化してimage retrieval
Visual Language Maps for Robot Navigation (Huang+, ICRA23)
空間的な特徴mapとしてVLMapsを用いるモデルを提案
Prompter: Utilizing Large Language Model Prompting for a Data Efficient Embodied Instruction Following
ALFREDにおける現時点でのSOTA.FILMを拡張.ランドマークを手がかりに探す
例: フォークを探すとき、トイレよりもシンクの近くを探すべき
SeqTR: A Simple yet Universal Network for Visual Grounding (Zhu+, ECCV22)
pix2seqに基づき,visual groundingを点予測問題(ポリゴン)へと帰着して解く手法SeqTRを提案
ポリゴンで解くことによってmIOUのupper boundを定めてしまうので注意
Language
Generating Data to Mitigate Spurious Correlations in Natural Language Inference Datasets
NLPにおいてバイアス(疑似相関を生み出すもの)を低減する手法・Generator(e.g. GPT-2)とz-filterで構成
二回埋め込んで,対照学習.Dropoutにより微かに異なる二つのベクトルで対照学習が行われる.
多言語モデル.言語ごとの層を並列させ,"the curse of multilinguality"を回避
TSPを解くことでベクトルを一次元に埋め込む.
Transformerを改善.$ Qを潜在変数とすることで,$ \mathcal{O}(L^2)の呪いから解放.潜在変数によって入力をクラスタリング.普通のPEではなくNeRFのPE. Vision
Parameter is Not All You Need: Starting from Non-Parametric Networks for 3D Point Cloud Analysis
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models
Stable Diffusionがtext-img間でcross-attentionを取っているので,潜在空間上で意味を捉えているという仮説を元に,SDとCLIPを用いてSegmentation
OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses
バイアス(疑似相関を生み出すもの)を低減するモデル・Early Exit, Visual Contraint (CAMをlossに加える)
BoxInst : BBOXのみで学習するinstance segmentation
DAT : 受容野を変形するAttention機構.格子点からちょいズラしたグリッド領域を特徴量として$ V,Kを設計
PCL : 普通の対照学習は負例の識別が簡単・情報として近しいはずの負例ペアを遠ざけてしまう→クラスタリングによって特徴量空間を整理する形で対照学習.EMアルゴリズムによる.
RegionCLIP : CLIPを物体検出に応用.RPNで候補を探して,名詞と領域のCLIP計算. 残差が大量にある高解像化モデル
パッチ数は増えれば増えるほどよいので,重要部分だけパッチ数が増えるようにクラスタリングしながら学習するTransformer
Basic
Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers
SSM系譜の先駆け.HiPPOを導入したSSMで,S4→S4D→H3→Hyenaと繋がる
大規模モデルの再学習手法.重みを差分で学習.低ランク行列で砂時計型に近似することでVRAM使用を抑える.
AttentionとDwConvは似ている.Attentionは入力により動的に重みが変わる.SE Netにも言及. モデルを学習せずに異常検知.中間層の出力をGAP通した後に,多次元正規分布でモデリング→マハラノビス距離で異常検知.
クラスタリングにより,似た画像は同じクラスタに属するように誘導しながら,対照学習を行う.
類似度の高い負例ペア同士も負例として遠ざけてしまうので良くない→ラベル情報を用いて対照学習
LRPをTransformerにも応用
DwConvは空間方向に重み共有を行い,Attentionはチャネル方向に重みを共有しているので,SwinとDwConvをmix channel・空間,どちらの方向にも縛られないMLP.Swinよりも受容野が広い.
マスク→acc計測を繰り返すことで,説明性指標を評価.マスク画像がOODにならないようにマスク画像も再学習 Weak dependenceとCompletenessを近似的に満たすような説明性指標を構築
不均衡データに対する手法.少ないサンプルを多いサンプルにコピペしてサンプル数を量産させる.アヒル🐣
Efficient Transformer系列.softmaxはattentionの分散を抑え (=attentionを集中させ)局所性を高める→局所性を高めるような重み付けがあると良いので,距離に対して単調減少するように重み付けする.(長距離には使用できない?) Adapt-and-Adjust (A2) : e2eの多言語音声認識.言語特有のアダプタと共通のアダプタの二つを使うDual-Adaptersを採用
畳み込みを用いたMAE.
selection機構を導入したViT.patch, head, block(MHA,FFN)を使うか使わないかをselectさせる.
convはシフト等に強いので,ViTにconvを組み込む.convして系列長を縮める→Dw-conv→Attention→conv→...
Graph
Few-shotにおける knowledge graph completion task (知識グラフを埋めるタスク)を行う.1-hopで繋がるhypothesisを検出・検証するモジュールにより構成
Graphormer : Transformerベースによるグラフの学習手法.Attentionに最短経路距離を加算.GNNを一般化
TokenGT : グラフをそのままTransformerにブチこむ.互いに直交するベクトルからノードとエッジの埋め込みを作成し,ノードかエッジかを示すパラメタをトークンごとにconcat
任意のGraphに使用可能なTransformer. ラプラシアン行列の固有値をPEに使う.
調査
Partial Distance Correlationによってモデルの比較・ 敵対的サンプルへの防御・Disentangle
残差結合はメモリ効率が悪い・「深層」と「層のアンサンブル=残差」は矛盾→残差結合を使わないアプローチを提案
決定境界を描画して,再現性と汎化性を調査.Double Descentについても調査し,クラス領域の断片化(fragmentation)が一因である傍証を得る.
$ w^\top xについて,$ w, xを直交分解すると,多様体に直交する重み$ w^\botは最適化が難しいので敵対的サンプルが成立
親和性の高いタスク同士を比較する
Chomsky Hierarchyにおいて, 各モデルがどのクラスに属するかを実験的に示した.Transformerは単体では全然タスク解けない.
なぜGBDT > NNなのかを調査.NNは高周波成分の学習が苦手・不要なデータを学習してしまう. NeRFのPEについて調査.高周波成分の学習に寄与していることが判明. 最も性能のよいTransformerのバリエーションを探索
不均衡への対処.balancedなデータセットで学習→特徴量抽出器の重みを固定して, 元のデータセットで線形分類器だけfine-tuning
不均衡への対処.元のデータセットで学習→特徴量抽出器の重みを固定して,balancedなデータセットで線形分類器だけfine-tuning.
CNNはPEがないのになぜ位置情報を獲得できているのかを検証.結論はzero-paddingにあり.
Optimizer
近傍が小さいかで判断するSAMはフラットな損失点を見つけてるとは言えない.本当はsurrogate gap(摂動近傍 - 自分)を見るべき.
Metrics
Others
trainとtestで分布が違う場合の解決策TTTを提案.trainで学習後,モデルの後半を初期化して,testで自己教師あり学習.
中間層でmixupすることで決定境界を滑らかにする.
code:copy.sh