モデルの内部構造解析

動的transfomerの実験

The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation

関東Kaggler会LT: 人狼コンペとLLM量子化について

深層学習が多層の膨大なパラメータを学習できる雰囲気を理解する

Exploring Direct Tensor Manipulation in Language Models: A Case Study in Binary-Level Model Enhancement

従来の勾配ベース手法とは異なり、既存の重みを外科的に修正してパフォーマンス向上を目指す。大規模言語モデルを使用してターゲットモデルのアーキテクチャと重み分布を分析し、特定の修正案を推論とともに生成する。

attention viz

WHAT MATTERS IN TRANSFORMERS? NOT ALL ATTENTION IS NEEDED

機械論的解釈可能性の紹介