Transformer
Large Language Model
CS324 Large Language Model
Graph Neural Network
機械学習エンジニアのためのTransformers(Oreilly)
A Close Look at Spatial Modeling: From Attention to Convolution
https://arxiv.org/abs/2212.12552v1
30分で完全理解するTransformerの世界
https://zenn.dev/zenkigen/articles/2023-01-shimizu
Understanding and Coding the Self-Attention Mechanism of Large Language Models From Scratch
https://sebastianraschka.com/blog/2023/self-attention-from-scratch.html
Attention
数学セミナーの鈴木先生の解説でアテンションの計算は本質的に半正定値カーネルの計算だから、ボホナーの定理の期待値をモンテカルロ近似してやればアテンションの計算量が落とせるという話が紹介されていて (今年のicml論文らしい)、やはりカーネル法、カーネル法は全てを解決する、となった
https://x.com/btreetaiji/status/1814319983150932222
Target Embedding
Source Embedding
Decoder LSTM
Encoder LSTM
embedding engineer
https://twitter.com/kazunori_279/status/1589728872148279296?s=20&t=zU7b6qoP9DWaE9wyfzHezA
なぜTransformerの表現力がNNより高いのかを圏論的に説明
https://twitter.com/lotz84_/status/1774376030574436693?s=46
GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning
https://www.youtube.com/watch?v=KlZ-QmPteqM
bbycroft LLM
https://x.com/Taiyo_AiAA/status/1817122766614564907
transformer explainer
https://gigazine.net/news/20240815-transformer-explainer/
Transformers are Graph Neural Networks
https://graphdeeplearning.github.io/files/transformers-are-gnns-slides.pdf
コンピュータビジョンにおけるTransformerの全てがわかる!?Part5(動画理解・低ショット・クラスタリング・三次元解析編)
https://ai-scholar.tech/articles/transformer/transformer-vision-5
End-to-End Human Pose and Mesh Reconstruction with Transformers
https://www.microsoft.com/en-us/research/publication/end-to-end-human-pose-and-mesh-reconstruction-with-transformers/
CNN < Transformer ?
https://developers.cyberagent.co.jp/blog/archives/50303/
Transformer Math 101
https://blog.eleuther.ai/transformer-math/