Transformer
機械学習エンジニアのためのTransformers(Oreilly)
A Close Look at Spatial Modeling: From Attention to Convolution
30分で完全理解するTransformerの世界
Understanding and Coding the Self-Attention Mechanism of Large Language Models From Scratch
Attention
数学セミナーの鈴木先生の解説でアテンションの計算は本質的に半正定値カーネルの計算だから、ボホナーの定理の期待値をモンテカルロ近似してやればアテンションの計算量が落とせるという話が紹介されていて (今年のicml論文らしい)、やはりカーネル法、カーネル法は全てを解決する、となった
Target Embedding
Source Embedding
Decoder LSTM
Encoder LSTM
embedding engineer
なぜTransformerの表現力がNNより高いのかを圏論的に説明
GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning
https://www.youtube.com/watch?v=KlZ-QmPteqM
bbycroft LLM
transformer explainer
Transformers are Graph Neural Networks
コンピュータビジョンにおけるTransformerの全てがわかる!?Part5(動画理解・低ショット・クラスタリング・三次元解析編)
End-to-End Human Pose and Mesh Reconstruction with Transformers
CNN < Transformer ?