Transformer

機械学習エンジニアのためのTransformers(Oreilly)

A Close Look at Spatial Modeling: From Attention to Convolution

30分で完全理解するTransformerの世界

Understanding and Coding the Self-Attention Mechanism of Large Language Models From Scratch

Attention

数学セミナーの鈴木先生の解説でアテンションの計算は本質的に半正定値カーネルの計算だから、ボホナーの定理の期待値をモンテカルロ近似してやればアテンションの計算量が落とせるという話が紹介されていて (今年のicml論文らしい)、やはりカーネル法、カーネル法は全てを解決する、となった

Target Embedding

Source Embedding

Decoder LSTM

Encoder LSTM

embedding engineer

なぜTransformerの表現力がNNより高いのかを圏論的に説明

GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning

https://www.youtube.com/watch?v=KlZ-QmPteqM

bbycroft LLM

transformer explainer

Transformers are Graph Neural Networks

コンピュータビジョンにおけるTransformerの全てがわかる！？Part5(動画理解・低ショット・クラスタリング・三次元解析編)

End-to-End Human Pose and Mesh Reconstruction with Transformers

CNN < Transformer ?

Transformer Math 101