機械学習
同期の研究、ボス、先輩、twitter etc...で仕入れた、手法とか用語とかのメモ
1対1で対応していなければ思い出せない。無能なので。
精読・深い理解ではなく、お気持ち程度の理解をここに書いてメモ
深い理解がしたくなったり必要なら、ページの中
にまとめる
Paperの要約なら、長くても1.5h程度でやる
frozenなCLIPのモデルを、propose maskの作成とclass予測の為に用いられるattention biasの作成に用いる。
CVPR23 Highlight
Swin Transformer
Patch分割をWindow単位での分割に変更、 回転・適切なマスクによりattentionの計算コスト削減
LAVT
RESを扱うモデル。Early fusionによる特徴量合成。画素単位に効率的に言語情報を埋め込むPWAM
ODISE
拡散モデルを使ったOpen-Vocaburary Panoptic Segmentationを行う C-3PO
Scene change = 消失・出現・交換と解釈。それぞれを学習させるモジュールとして独立
あんま仮説通りには行っていない
PaLM2
Googleが出しているLLM、Bardより新しい?(と思われる)
ADAv2
OpenAIが2022に発表したtext-embedding、BERT、DeBERTa(2020)、RoBERTa(2019)よりも新しい
Semantic streamとTranspoter streamに分割し、semantic情報とspatial情報を用いてaffordance予測を行うagent
CLIPを使ってやっている
Decision Transformer
VLMBench
Atari
VIMA
GATO
Kaneda RAL引用論文
Terms
ODE
Human-in-the-loop
Affordance
Retrieval
特にコンピュータ系の文脈においては、「検索」
検索系タスクの場合、FPが特に多くなる
coordinate
数学の分野において、座標
end-effector
ロボティクスの分野において、environmentとinteractする部分である。
tableopsなどの場合、armを指す
NCE Loss
輪講メモ
物体検出において、標準的なクラス数はどのくらいか?
家具系のタスク 50クラス、物体なら 20~5000、10000行くかもだが100000のオーダーは無い
自分の実家の家具の数程度あれば良い。少なくとも家具以下
ベンチマークを作る際はこれがバックグラウンドにあるのを念頭に置く
最も価値のあるようなクラス数設定を目指すべき
単に$ A\ne A'のようには考えられない、クラス数が少ない
ICMLと PMLRが出てきた!正しい会議はどっち?
ICMLが会議、PMLRの3月号みたいなイメージ
昔のPMLR論文は1本100ページとかだった、えぐ