機械学習まとめ - 🍣YuWd(和田唯我)のメモ🍣

機械学習まとめ

#memo #機械学習

概要

論文，タスク，データセットをまとめる

元々記憶力が人より悪く，心躍るものしか記憶できない傾向にある．

受験の時と同様に暗記物として暗記しないと一生頭に入らなそうなのでメモ

Term

U-Net

Task

VRR (Visual Releationship Recognition)

Dataset

NLIデータセット

Natural Language Inference. 前提と仮説の二文が正しい・矛盾・どちらとも言えないのどれかを推測

KB-VQA

画像+テキストによるVQA．画像に含まれていない知識を要する質問に回答するタスク

PCQM4Mv2

分子グラフの量子特性を予測させるタスク

CLEVR

CGで作られたVQAデータセット．個数や物体の形状・色を答えさせるQAも存在．

GQA

compositionalなVQAタスク用．CLEVRと異なり実環境．MSCOCOとVisualGenomeで作られている．シーングラフから生成されるのでアノテータが介在せずVQAv2よりもhuman-centricな傾向が抑えられている．

Visual Commonsense Reasoning

画像に対して，「ある人物がなぜ〇〇をしたか」を理由も付きで答える．理由と答えは選択肢方式

NoCaps(Novel Captioning)

image captioning用．MSCOCOよりもクラス数が多く，testにはtrainにほとんど含まれていないクラスも存在する(なのでnovel)．

DenceCaps

Dence Captioning. Detection + Captioning のイメージ．領域にrichなcaptionを付与させる．

Robo-VLN

連続空間におけるVLNタスク．Nav-Graphは当然与えられない．かなり滑らかに動く．ICRA18

RoboTHOR

めちゃくちゃ近いSim / Realの環境を提供する．CVPR20

Occluded COCO & Separated COCO

遮蔽された物体を検出する．(e.g., 人の後ろにある車)

ProcTHOR

手続き的に無限の3D室内環境を構築できる

RobustNav: Towards Benchmarking Robustness in Embodied Navigation

カメラの破損(crack)やエージェントの車輪の故障などを考慮したVLNタスク

TRICD

groundingタスクでは，参照文に含まれる物体が必ず存在するという仮定があるため，モデルを過大評価しがち

ManiSkill2 (ICLR23)

関節物体等を含む物体の操作タスク (e.g., 剛体，水，土)

BusyBot (CoRL22)

多関節物体の操作タスク

Vision&Language

OTTER: Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation

OTTER : 最適輸送によって0-1で対照学習していたCLIPを改良．

Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding

VLモデルのVisionモジュールは言語特徴量を使わないので，「りんごの個数」などのタスクに答えられない．そこで，visionとlang.を中間でspatial / channel方向にmixさせるモジュールを提案

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

CLIPが使用したデータセットはnoisyなので，クリーニングしながら学習．Image Captioningができる．

Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation

DUET : localとglobalを統合してVLNを解く．global情報としてグラフを構築する．ノードにはviewの埋め込み表現を．

ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation

open-vocab.な物体検出モデル．RPN→特徴量をCLIPに通してMatrixから物体検出．

RegionCLIP: Region-based Language-Image Pretrainingと敵対

HAMT - History Aware Multimodal Transformer for Vision-and-Language Navigation

HAMT : VLNを解く．text, history, viewをUNITER形式で入力とするTransformer

SOHO - Seeing Out of tHe bOx : End-to-End Pre-training for Vision-Language Representation Learning

画像全体を使いたいためBBOXを使うregion-baseだと良くない．パッチをクラスタリングして，プロトタイプを埋め込みに使用するためBBOXを用いずに学習．VQAやImage Retrievalを解く．

Large-Scale Adversarial Training for Vision-and-Language Representation Learning

ViLLA : 各モダリティに摂動を加えて学習する．敵対的サンプルに対する頑健性を高める．

Pix2seq

物体検出を言語モデルの枠組みで解く．EOSが出るまでがBBOX候補なので，検出漏れを防ぐ目的でEOSを遅らせるために，偽のBBOX情報をGTにconcat

RelTransformer

tripletの各領域をメッシュ状のTransformerに入れてtripletの関係性を学習

What the DAAM: Interpreting Stable Diffusion Using Cross Attention

拡散モデルからAttention mapを作成

MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering

MuKEA : scene graphを作るのではなく，埋め込みによるtripletでVQAタスクを解く．

Generating Semantically Precise Scene Graphs from Textual Descriptions for Improved Image Retrieval

scene graphの作成を自動化してimage retrieval

Visual Language Maps for Robot Navigation (Huang+, ICRA23)

空間的な特徴mapとしてVLMapsを用いるモデルを提案

Prompter: Utilizing Large Language Model Prompting for a Data Efficient Embodied Instruction Following

ALFREDにおける現時点でのSOTA．FILMを拡張．ランドマークを手がかりに探す

例: フォークを探すとき、トイレよりもシンクの近くを探すべき

SeqTR: A Simple yet Universal Network for Visual Grounding (Zhu+, ECCV22)

pix2seqに基づき，visual groundingを点予測問題(ポリゴン)へと帰着して解く手法SeqTRを提案

ポリゴンで解くことによってmIOUのupper boundを定めてしまうので注意

Language

Generating Data to Mitigate Spurious Correlations in Natural Language Inference Datasets

NLPにおいてバイアス(疑似相関を生み出すもの)を低減する手法・Generator(e.g. GPT-2)とz-filterで構成

Hungry Hungry Hippos: Towards Language Modeling with State Space Models

H3 : SSMによる言語モデリング．ShiftとDiagによってAttentionを代替．Transformerに替わるモデル．

SimCSE

二回埋め込んで，対照学習．Dropoutにより微かに異なる二つのベクトルで対照学習が行われる．

Lifting the Curse of Multilinguality by Pre-training Modular Transformers

多言語モデル．言語ごとの層を並列させ，"the curse of multilinguality"を回避

Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem

TSPを解くことでベクトルを一次元に埋め込む．

Perceiver: General Perception with Iterative Attention

Transformerを改善．$ Qを潜在変数とすることで，$ \mathcal{O}(L^2)の呪いから解放．潜在変数によって入力をクラスタリング．普通のPEではなくNeRFのPE．

Vision

Parameter is Not All You Need: Starting from Non-Parametric Networks for 3D Point Cloud Analysis

パラメタを一切使わずに点群を処理する．FPS→k近傍→Positional Encoding →プーリングで高次元空間に写像

Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

Stable Diffusionがtext-img間でcross-attentionを取っているので，潜在空間上で意味を捉えているという仮説を元に，SDとCLIPを用いてSegmentation

OccamNets: Mitigating Dataset Bias by Favoring Simpler Hypotheses

バイアス(疑似相関を生み出すもの)を低減するモデル・Early Exit, Visual Contraint (CAMをlossに加える)

BoxInst: High-Performance Instance Segmentation with Box Annotations

BoxInst : BBOXのみで学習するinstance segmentation

Energy-Based Learning for Scene Graph Generation

Energy Based ModelによってScene Graphを生成

Your classifier is secretly an energy based model and you should treat it like one

Energy Based Modelによって分類問題を解く

Deformable Attention Transformer

DAT : 受容野を変形するAttention機構．格子点からちょいズラしたグリッド領域を特徴量として$ V,Kを設計

Prototypical Contrastive Learning of Unsupervised Representations

PCL : 普通の対照学習は負例の識別が簡単・情報として近しいはずの負例ペアを遠ざけてしまう→クラスタリングによって特徴量空間を整理する形で対照学習．EMアルゴリズムによる．

RegionCLIP: Region-based Language-Image Pretraining

RegionCLIP : CLIPを物体検出に応用．RPNで候補を探して，名詞と領域のCLIP計算．

SwinIR: Image Restoration Using Swin Transformer

残差が大量にある高解像化モデル

TCFormer

パッチ数は増えれば増えるほどよいので，重要部分だけパッチ数が増えるようにクラスタリングしながら学習するTransformer

Basic

Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers

SSM系譜の先駆け．HiPPOを導入したSSMで，S4→S4D→H3→Hyenaと繋がる

LoRA: Low-Rank Adaptation of Large Language Models

大規模モデルの再学習手法．重みを差分で学習．低ランク行列で砂時計型に近似することでVRAM使用を抑える．

When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism

Shift演算だけでトークンをゴチャゴチャにする．MLP-MixerやMetaFormer・PoolFormerと同じ系統．

On the Connection between Local Attention and Dynamic Depth-wise Convolution

AttentionとDwConvは似ている．Attentionは入力により動的に重みが変わる．SE Netにも言及．

Modeling the Distribution of Normal Data in Pre-Trained Deep Features for Anomaly Detection

モデルを学習せずに異常検知．中間層の出力をGAP通した後に，多次元正規分布でモデリング→マハラノビス距離で異常検知．

SwAV

クラスタリングにより，似た画像は同じクラスタに属するように誘導しながら，対照学習を行う．

Supervised Contrastive Learning

類似度の高い負例ペア同士も負例として遠ざけてしまうので良くない→ラベル情報を用いて対照学習

Transformer Interpretability Beyond Attention Visualization

LRPをTransformerにも応用

MixFormer

DwConvは空間方向に重み共有を行い，Attentionはチャネル方向に重みを共有しているので，SwinとDwConvをmix

CycleMLP

channel・空間，どちらの方向にも縛られないMLP．Swinよりも受容野が広い．

ROAR

マスク→acc計測を繰り返すことで，説明性指標を評価．マスク画像がOODにならないようにマスク画像も再学習

FullGrad

Weak dependenceとCompletenessを近似的に満たすような説明性指標を構築

CMO

不均衡データに対する手法．少ないサンプルを多いサンプルにコピペしてサンプル数を量産させる．アヒル🐣

cosFormer

Efficient Transformer系列．softmaxはattentionの分散を抑え (=attentionを集中させ)局所性を高める→局所性を高めるような重み付けがあると良いので，距離に対して単調減少するように重み付けする．(長距離には使用できない？)

SiT

MAEと同様，再構成損失によりViTを自己教師あり学習．パッチをdropしたり，色合いを変えたり．

Adapt-and-Adjust: Overcoming the Long-Tail Problem of Multilingual Speech Recognition

Adapt-and-Adjust (A2) : e2eの多言語音声認識．言語特有のアダプタと共通のアダプタの二つを使うDual-Adaptersを採用

ConvMAE

畳み込みを用いたMAE．

PVT

Pyramid Vision Transformer : ピラミッド上のViT. Feature Pyramid Networksを想起するとわかりやすい．SRAで$ K,Vを次元削減．ピラミッドによりcoaseもfineもイケるように．

AdaViT

selection機構を導入したViT．patch, head, block(MHA,FFN)を使うか使わないかをselectさせる．

CvT

convはシフト等に強いので，ViTにconvを組み込む．convして系列長を縮める→Dw-conv→Attention→conv→...

Graph

Few-shot Relational Reasoning via Connection Subgraph Pretraining

Few-shotにおける knowledge graph completion task (知識グラフを埋めるタスク)を行う．1-hopで繋がるhypothesisを検出・検証するモジュールにより構成

Graphormer: Do Transformers Really Perform Bad for Graph Representation?

Graphormer : Transformerベースによるグラフの学習手法．Attentionに最短経路距離を加算．GNNを一般化

TokenGT: Pure Transformers are Powerful Graph Learners

TokenGT : グラフをそのままTransformerにブチこむ．互いに直交するベクトルからノードとエッジの埋め込みを作成し，ノードかエッジかを示すパラメタをトークンごとにconcat

Graph Transformer: A Generalization of Transformer Networks to Graphs

任意のGraphに使用可能なTransformer. ラプラシアン行列の固有値をPEに使う．

調査

On the Versatile Uses of Partial Distance Correlation in Deep Learning

Partial Distance Correlationによってモデルの比較・敵対的サンプルへの防御・Disentangle

Distance CorrelationとPartial Distance Correlation について

Deep Learning without Shortcuts: Shaping the Kernel with Tailored Rectifiers

残差結合はメモリ効率が悪い・「深層」と「層のアンサンブル＝残差」は矛盾→残差結合を使わないアプローチを提案

Can Neural Nets Learn the Same Model Twice? Investigating Reproducibility and Double Descent from the Decision Boundary Perspective

決定境界を描画して，再現性と汎化性を調査．Double Descentについても調査し，クラス領域の断片化(fragmentation)が一因である傍証を得る．

Curse of co-Dimensionality: Explaining Adversarial Examples by Embedding Geometry of Data Manifold

$ w^\top xについて，$ w, xを直交分解すると，多様体に直交する重み$ w^\botは最適化が難しいので敵対的サンプルが成立

Taskonomy: Disentangling Task Transfer Learning

親和性の高いタスク同士を比較する

Neural Networks and the Chomsky Hierarchy

Chomsky Hierarchyにおいて, 各モデルがどのクラスに属するかを実験的に示した．Transformerは単体では全然タスク解けない．

Why do tree-based models still outperform deep learning on tabular data?

なぜGBDT > NNなのかを調査．NNは高周波成分の学習が苦手・不要なデータを学習してしまう．

Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains

NeRFのPEについて調査．高周波成分の学習に寄与していることが判明．

Do Transformer Modifications Transfer Across Implementations and Applications?

最も性能のよいTransformerのバリエーションを探索

Two-phase training mitigates class imbalance for camera trap image classification with CNNs

不均衡への対処．balancedなデータセットで学習→特徴量抽出器の重みを固定して, 元のデータセットで線形分類器だけfine-tuning

Decoupling Representation and Classifier for Long-Tailed Recognition

不均衡への対処．元のデータセットで学習→特徴量抽出器の重みを固定して，balancedなデータセットで線形分類器だけfine-tuning.

Two-phase training mitigates class imbalance for camera trap image classification with CNNsの逆

Self-supervised Learning is More Robust to Dataset Imbalance

自己教師あり学習はラベルに依存しないのでロバスト性があり不均衡データに強い

How Much Position Information Do Convolutional Neural Networks Encode?

CNNはPEがないのになぜ位置情報を獲得できているのかを検証．結論はzero-paddingにあり．

Optimizer

GSAM - Surrogate Gap Minimization Improves Sharpness-Aware Training

近傍が小さいかで判断するSAMはフラットな損失点を見つけてるとは言えない．本当はsurrogate gap(摂動近傍 - 自分)を見るべき．

Metrics

SPICE: Semantic Propositional Image Caption Evaluation

Image Captioningにおける自動評価尺度．Stanford Scene Graph Parserを使用．

Others

Test-Time Training with Self-Supervision for Generalization under Distribution Shifts

trainとtestで分布が違う場合の解決策TTTを提案．trainで学習後，モデルの後半を初期化して，testで自己教師あり学習．

Maximum Classifier Discrepancy for Unsupervised Domain Adaptation

GANでDomain Adaptation

Manifold Mixup: Better Representations by Interpolating Hidden States

中間層でmixupすることで決定境界を滑らかにする．

code:copy.sh