表現学習
Representation Learning: A Review and New Perspectives
Disentangled な表現の教師なし学習手法の検証
表現学習【講義やサーベイ論文など】
Object-Centric Learning with Slot Attention
物体中心表現とは本rない三次元である物体を二次元情報化r亜人間が認識する際に活用していると考えられる、構造を持つ潜在表現をさす言葉である
生成モデルの潜在空間における自然な距離尺度(内在的な距離尺度)ってなんだろう?と考えて,すぐこの論文を思い出した
数年前に、VAEでは実空間と潜在空間の計量を定量的に結びつけられることを示した研究をICMLで発表しました。
しかしTransformerでは、中々難しいですね。
Deep Neural Networksの力学的・幾何学的解析
仮説1-1 高次元空間に存在する実世界のデータは、非常に低次元の非線形多様体付近に集中している
仮説1-2 高次元に存在する実世界のデータはクラスごとに違う部分多様体に埋め込まれており、それらの部分多様体の間は低密度領域となっている
パフォーマンスの高い学習ずみDeep Neural Networksは上の多様体を多様体と同じ次元のユークリッド空間へ写像する能力を持つ
ニューラルネットワークが獲得した関数をデータセット多様体を大域的な座標系へ写像する関数だとみなすと、その関数を元の多様体の性質を知ることが可能となる
多様体から多様体への写像の微分は多様体の接空間を定義し、そこから多様体の次元や接ベクトルなどの情報を得ることができる
「モデルのパラメータ数を大きくするほど汎化誤差が減少する」という(驚異の)スケーリング則は,Transformerだけでなく,CNNなどの深層学習モデル,ChatGPTなどのLLMでも観察されている。このスケーリング則は,多様体仮説を仮定すれば説明できる,という論文
画像やテキストなどのリアルワールドデータについて多様体仮説が成り立つように見えるのは,それらのリアルワールドデータが人間が一見して意味を読み取れる種類のデータだからではないか.つまり,人間の認知が拘束条件として働いて多様体仮説を生み出しているんじゃないか,と思った
タコの驚異のカモフラージュ~環世界とか多様体仮説とか~
Deep Learningと位相・微分幾何学
深層学習モデルのひとつの解釈は、高次元の多様体を小さな次元の多様体へと写像をする操作
深層学習モデルがアフィン変換によっておこなう入力データから低次元の別の多様体への同相写像を元に、元の入力データが持っていた幾何学的な構造を特定することができる
損失関数の偏微分ベクトルが最大値をとる方向に、中間層の重みを更新するのが妥当なのは、入力データが中間層によって同相変換された結果、得られる多様体の曲率がユークリッド空間である場合に限定される
幾何と機械学習:
nlpの単語などのシンボリックデータは階層性(木構造)を伴うので、euclid空間ではなく、双曲空間にembeddingする方が効率的である
ポアンカレ embedding