Transformer
Transformer (機械学習モデル) - Wikipedia
Transformer (deep learning architecture) - Wikipedia
Transformer: アテンションが主要部品の系列変換モデル [深層学習] | CVMLエキスパートガイド
Amazon.co.jp: ChatGPTの頭の中 (ハヤカワ新書 009) : スティーヴン・ウルフラム, Stephen Wolfram, 稲葉 通将, 高橋 聡: 本
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin "Attention is All You Need" 2017/6/12
perceptron
埋め込み (embedding)
埋め込み層 (Embedding Layer) [自然言語処理の文脈で] | CVMLエキスパートガイド
単語の埋め込み - Wikipedia
word2vec
word2vec (単語埋め込み) | CVMLエキスパートガイド
Word2vec - Wikipedia
seq2seq (系列變換 model)
seq2seq (sequence-to-sequence) [機械翻訳] | CVMLエキスパートガイド
Seq2seq - Wikipedia
encoder-decoder
Encoder-Decoder ネットワーク [ディープラーニングの文脈で] – CVMLエキスパートガイド
注意機構 (attention) (attention mechanism)
アテンション (機械学習) - Wikipedia
系列変換モデルとアテンション機構 [seq2seq から Transformer まで] | CVMLエキスパートガイド
seq2seq with attention | CVMLエキスパートガイド
自己注意 (self-attention)
multi-head 注意 (multi-head attention)
マルチヘッドアテンション (Multi-head Attention) [Transformerの部品] | CVMLエキスパートガイド
文脈依存言語
位置符号化 (Positional Encoding) [Transformerの部品] | CVMLエキスパートガイド
Nicolas Zucchet, Francesco d'Angelo, Andrew K. Lampinen, Stephanie C.Y. Chan “The emergence of sparse attention: impact of data distribution and benefits of repetition” 2025/3/23
大規模言語 model (LLM)およびより廣範な neural network における「創發」現象は、非常に興味深い特性である。モデルの規模が擴大し學習期閒が長期化するにつれ、これらのシステムは時に突如として新たな能力を獲得することがある。これまでの硏究にもかかはらず、これらの能力がどのやうに、またどのやうな條件下で出現するのかといふ包括的な理解は未だ得られてゐない。この硏究ギャップを埋めるため、本論文では Transformer アーキテクチャにおいて頻繁に觀測される重要な注意パターンである「疎注意」の學習過程における出現メカニズムを詳細に調査する。具體的には、單純なモデルを用ゐた理論的解析と、線形囘歸變種で學習させた小規模 Transformer モデルに對する實證的觀察結果を組み合はせることで、疎注意の出現を驅動する力學的原理を明らかにした。さらに、出現タイミングがタスク構造・アーキテクチャ・最適化アルゴリズムの選擇に基づいて冪乘則に從ふことを實證する。加へて、反復學習が創發プロセスを大幅に加速させる效果があることも確認した。最後に、これらの知見を充分に硏究されてゐる「文脈内聯想想起」タスクにおいて檢證した。本硏究の成果は、データ分布とモデル設計が特定の創發現象の背後にある學習ダイナミクスにどのやうに影響を及ぼすかを理解する上で、理論的基盤に基づいた簡潔な枠組みを提供するものである。
fine tuning
例示
few-shot prompt
低 rank 適應 (LoRA)
專門家の混合 (MoE)
LLM の KV cache
次元を減らす
量子化 (quantization)
量子化とは| IBM
LLM テクニックの習得: 推論の最適化 - NVIDIA 技術ブログ#量子化
わかる!LLMの量子化|GPUサーバープラットフォームの設計/構築なら「技術力」のNTTPC
內在次元 (intrinsic dimension)
Intrinsic dimension - Wikipedia
片岩拓也、趙羽風、大木哲史「トークン埋め込みの内在次元を測る」2025
マニフォールド学習の理論と実践 — 次元削減と可視化の最前線 - EverPlay(エバープレイ)
lottery ticket 假說
mode connectivity
flat minima 假說
in-context learning
學習の低次元化 : 低 rank 適應 (LoRA)
推論の低次元化 : 知識の蒸溜 (KD)
Vision Transformer (ViT)
擴散 Transformer (DiT) (diffusion transformers)