モデルの内部構造解析
動的transfomerの実験
The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation
関東Kaggler会LT: 人狼コンペとLLM量子化について
深層学習が多層の膨大なパラメータを学習できる雰囲気を理解する
Exploring Direct Tensor Manipulation in Language Models: A Case Study in Binary-Level Model Enhancement
従来の勾配ベース手法とは異なり、既存の重みを外科的に修正してパフォーマンス向上を目指す。大規模言語モデルを使用してターゲットモデルのアーキテクチャと重み分布を分析し、特定の修正案を推論とともに生成する。
attention viz
WHAT MATTERS IN TRANSFORMERS? NOT ALL ATTENTION IS NEEDED
機械論的解釈可能性の紹介