杉田が今まで読んだ論文リスト
2024/08/23
① 条件付き画像検索と画像生成の結合
発表会議:DEIM 2024
著者:澤田一正、坂地泰紀、野田五十樹、小山聡
所属:北海道大学、名古屋市立大学
詳細:条件付き画像検索の精度と多様性を向上させるため、生成AIと従来の画像検索モデルを組み合わせた手法の提案
<メモ>
既存の条件付き画像検索システムの使用の選定
従来の画像検索モデルを強化する生成AIの導入
提案手法と既存の条件付き画像検索モデルの検索クエリに対する適合比と検索結果の多様性を評価
特徴量抽出:CLIP
コサイン類似度
2024/08/30
② オンラインレビューに関する自己教師あり学習を利用した説明性を有するPOI推薦手法
発表会議:DEIM 2022
著者:片山一、牛尼剛聡
所属:九州大学
詳細:ユーザの目的に関連した POI 推薦と目的に対応付けた各 POI の説明を提示するシステムの作成
<メモ>
追加の事前学習とfine-tuningによるデータの学習
クエリに基づいたPOI推薦制度の評価
クエリに関するレビュー文の抽出方法の比較
POI ((Point of Interest)
地図上に掲載されている特定の場所や施設のこと
BERT の2種の事前学習「MLM」(マスク言語モデリング)「NSP」(次文予測)
2024/09/06
③ ショートビデオを用いた画像検索における観光地紹介ビデオの生成方式
発表会議:DEIM 2024
著者:藤原 虎留、王 元元、岳 五一
所属:山口大学、京都情報大学院大学
詳細:観光地の魅力をより効果的に伝えるためのショートビデオを活用した観光地紹介ビデオの自動生成手法の提案
<メモ>
データ収集とラベル・タグ付け
関連する観光地の特定と観光地紹介ビデオの生成
有用性を評価するアンケート調査
「Word2vec」:単語を数値ベクトルに変換するための技術
CBOW(Continuous Bag of Word):前後の単語から中心の単語を学習
Skip-gram:中心の単語からその周辺の単語を予測し学習
2024/09/13
④ 追加事前学習によるレビューと商品属性の対応関係学習
発表会議:DEIM 2024
著者:河田 友香、山本 岳洋、大島 裕明、藤田 澄男
所属:兵庫県立大学、LINE ヤフー株式会社
詳細:商品属性とレビューの関連性を予測するためのモデルを構築し、レビューがその商品属性に関連しているかどうかを判断する手法を提案
<メモ>
商品属性とその商品に関連するレビュー(正例)および関連しないレビュー(負例)をデータセットとして準備
BERTモデルをベースに、レビューと商品属性の関連度を予測するモデルを構築
レビューや商品属性のトークンにマスク処理を施し、そのマスクされた部分を予測することで、レビューと商品属性の関連性をより正確に学習するための追加事前学習を行う
モデルの評価
関連度予測タスク:レビューが商品属性に関連しているかどうかを二値(関連あり・関連なし)で予測するタスク。
レビューランキングタスク:商品属性に基づいて複数のレビューをランク付けし、最も関連性の高いレビューを上位に表示するタスク。
シグモイド関数(活性化関数)、バイナリ交差エントロピー(損失関数)、誤差逆伝播法
2024/09/20
⑤生成型要約に基づくWebページのサムネイル生成
発表会議:DEIM 2024
著者:前田 直宏、山本 岳洋
所属:兵庫県立大学
詳細:Webページの記事からサムネイル画像を生成する手法の提案
<メモ>
Webページ記事を分割し要約することでプロンプトを作成
プロンプト分類における分類モデル評価
サムネイル画像の生成における手法・モデル評価
プロンプト分類モデル:ランダムフォレスト、XGBoost(←アンサンブル学習)
LexRankによる重要度抽出
2024/10/04
⑥大規模言語モデルを用いたその場での要約に基づくレビュー探索インタフェース
発表会議:DEIM 2024
著者:藤井真梨乃、河田 友香、山本 岳洋
所属:兵庫県立大学
詳細:商品レビューの検索を行い要約文を表示するインタフェースの提案
<メモ>
クエリと類似するレビュー文の抽出と要約
ユーザ実験のアンケートによる手法の評価
システムのレビュー検索精度評価
Few-shotプロンプトを用いた大規模言語モデルの効果的な利用
インタフェースの提案をしており、発表の仕方が肝
2024/11/1
⑥Image-Based Service Recommendation System: A JPEG-Coefficient RFs Approach
発表会議:IEEE Access 2019
著者:FARHAN ULLAH, BOFENG ZHANG, REHAN ULLAH KHAN
所属:Shanghai University, Qassim University
詳細:画像ベースの類似商品検索システムの提案
<メモ>
RFによる商品のカテゴリ分類を行うことで精度が向上
DLとRFを組み合わせることでさらに高精度な分類が可能
画像から特徴量を抽出
画像のカテゴリを分類するモデルを作成
特定されたカテゴリ内の商品から類似する商品を検索
2024/11/8
⑦ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs
発表会議:ECCV 2024
著者:Viraj Shah、Nataniel Ruiz、Forrester Cole、Erika Lu、Svetlana Lazebnik、Yuanzhen Li、Varun Jampani
所属:Google Research、 Illinois University
詳細:訓練されたLoRAの効率的な統合方法の提案(ZipLoRA)
<メモ>
提案手法が既存のLoRA統合方法に比べて高い評価を得た
被写体、スタイルのLoRAを作成
2つのLoRAを統合
定性的、定量的実験評価
LoRAの統合の際、「マージ係数(学習可能な係数)」を利用し、互いの持つ情報が干渉しあわないように必要な情報のみを取捨選択している
LoRAのスパース性
マージ係数同士のコサイン類似度が大きいほど情報が干渉してしまう
統合LoRaと統合元LoRA間で生成画像を比較し差を算出
「コサイン類似度」と「画像間の差」が最小になるような損失計算でマージ係数を決定
<キーワード>
DreamBooth、StyleDrop、学習可能な係数(名前忘れた)、SDXL、LoRA
2024/11/13(発表なし)
⑧Finding Generative Image LoRA Model by Inputting Style Sample Image(アンさん研究)
発表会議:DEIM 2023
著者: NgocAnh VUTHI, Yoshiyuki SHOJI, Huu-Long PHAM, and Hiroaki OHSHIMA
所属:静岡大学、兵庫県立大学
詳細:与えられた画像を生成するのに適したLoRAの発見手法
<メモ>
サンプル画像を各LoRAを用いて変換し、学習データセットを作成
学習データセットを用いてResNet50というCNNベースの多クラス分類器を画像分類タスクでファインチューニング学習
変換後画像とラベル(各LoRA名)でResNet50の一部をバックプロバケーションで学習
完全接続層を1つ追加(分類精度の向上)
入力画像がどのLoRAであるかを確率で計算し、上位を表示
2024/11/14(発表なし)
⑨FreeTuner: Any Subject in Any Style with Training-free Diffusion
発表会議:なし(arXiv preprint)
著者: Youcan Xu , Zhen Wang, Jun Xiao, Wei Liu, Long Chen
所属:Zhejiang University, Hong Kong University of Science and Technology ,Tencent
詳細:LoRAのように訓練を用いず被写体の構造を保ちつつスタイルを変換
<メモ>
被写体の構造とスタイルの億丁を分離してそれぞれを個別に操作(2段階生成))
与えらえた画像から被写体の画像を再生成することで被写体の基本的な特徴を保持
被写体に追加情報(どこで何をしているか)
スタイル画像から特徴(美的な要素9を抽出しそれを基に被写体の外見を変更
モデルマージとは異なる(異なる画像の特徴を分離・結合)
生成したい被写体を含む画像と、その被写体に適用したいスタイルを含む画像の2枚を基にして、特定の被写体を特定のスタイルで生成する手法
LoRAのように訓練が必要なモデルを利用しない
2024/11/19
⑩ LoraHub: Efficient Cross-Task Generalization via Dynamic LoRAComposition
発表会議:COLM 2024
著者:Chengsong Huang, Qian Liu, Bill Yuchen Lin, Tianyu Pang, Chao Du, Min Lin
所属:Sea AI Lab, Washington University, Allen Institute for AI
詳細:複数の事前学習済みLoRAモジュールを統合する「LoRAHub」を提案
<メモ>
LoRAモジュールをランダムに20個選択し係数をかけて統合
係数をタスクに合わせて最適化
BBHベンチマークタスクによる評価
LoRAモジュールの統合手法としてのCMA-ESアルゴリズムの効果
少数ショットデータを活用した効率的な学習プロセス
2024/11/29
⑪Implicit Style-Content Separation using B-LoRA
発表会議:ECCV 2024
著者:Yarden Frenkel, Yael Vinker, Ariel Shamir, Daniel Cohen-Or
所属:Tel Aviv University, Reichman University
詳細:1枚の画像の被写体・スタイルを個別に学習するB-LoRA学習の提案
<メモ>
Stable Diffusionの特定ブロックが画像生成に大きく影響
B-LoRAは低い計算コストで高い精度
画像生成モデルの分析
B-LoRAモジュールの作成
定性的・定量的評価で各手法の精度評価
2024/12/11
⑫k近傍法を用いた事前学習済みBERTモデル検索
発表会議:DEIM 2024
著者:ファムフーロン、三林 亮太、山本 岳洋、加藤 誠、 山本 祐輔、莊司 慶行、大島 裕明
所属:兵庫県立大学情報科学研究科、筑波大学図書館情報メディア系、静岡大学 情報学部、名古屋市立大学データサイエンス学部
詳細:K近傍法による特定のタスクに最適なBERTモデルの検索
<メモ>
特定タスクの訓練データによるモデルの出力ベクトルと訓練データラベルより1近傍モデルを構築
構築したモデルに検証データによるモデルの出力ベクトルを適応し計算されるラベルの正解率を計算
ラベルの正解率の高い順にBERTモデルランキングを作成
作成したベンチマークデータセットによる手法評価(正しく検索できているか)
2024/12/17
⑬LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed Tasks in the Wild
発表会議:ACL 2024
著者:Ziyu Zhao, Leilei Gan ,Guoyin Wang, Wangchunshu Zhou, Hongxia Yang, Kun Kuang ,Fei Wu
所属:Zhejiang University, ByteDance, AIWaves INC., Shanghai AI Laboratory
詳細:入力タスクに基づいた最適なLoRAの動的な検索・統合
<メモ>
自然言語処理タスクでLoRAを作成
入力に対応するLoRAを検索するモデルをFT
複数の条件下で提案手法の検索精度を評価
入力に基づくLoRA検索と統合が既存の手法より高い精度
未見のタスクにも高い一般化能力を示した
MoE(Mixture of Experts)
2024/12/23
⑭Evolutionary Optimization of Model Merging Recipes
発表会議:arxiv 2024
著者: Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha
所属:Sakana AI
詳細:進化的アルゴリズムを用いた自動的モデルマージ手法の提案
<メモ>
パラメータ空間とデータフロー空間両方でモデルの最適化を行い統合
パラメータ空間:モデルのレイヤーレベルのパラメータを混合するための重みを進化的に最適化
データフロー空間:モデル内のレイヤーの並び替えを進化的に最適化(データがどの層をどのような順番で通過するのか)
<要点>
TIES-Merging
モデル巻の干渉を軽減するため、冗長なパラメータや矛盾するパラメータを調整
パラメータのスパース化(重要でないパラメータの削除)
DARE
微小なパラメータ差異を無視し、大きな差異を強調して融合
進化的アルゴリズム(CMA-ES)
重みの初期値を設定しタスクの性能に基づいて進化的に最適化
2025/1/17
⑮Instance-Level Dynamic LoRAs Composition for Cross-Task Generalization
発表会議:EMNLP 2024
著者:Zhiqi Wang, Shizhu He, Kang Liu, Jun Zhao
所属:University of Chinese Academy of Sciences
詳細:質問文に対して最適なLoRAの選択と統合を行う手法の提案
<メモ>
選択候補LoRAの作成とエンベッディング
質問文に最適なLoRA選択と統合
BBHベンチマークタスクによるタスク処理精度の評価
提案手法が「LoRAHub」のような既存手法より高精度
高度に構造化されたタスクが苦手
入力に質問文に加えて複数の入出力例を利用(Few-shotプロンプト形式)
2025/2/4
⑯スタイル距離計算に基づく画像を入力とする画像生成AIモデル検索
発表会議:MMM 2025
著者:大江優真、ブディゴックアン、フーロンファム、大島裕明、荘司慶行
所属:静岡大学、兵庫県立大学
詳細:入力画像のスタイルと最も類似するスタイルLoRA検索システムの提案
<メモ>
複数のサンプル画像を複数のスタイルLoRAを用いて変換しデータセット作成
データセットを基にトリプレットネットワークモデルをFT
入力された1枚の画像のスタイルを生成可能なLoRAを確率でランキングして出力
総当たりの計算
トリプレットロス、ControlNet
2025/2/21
⑰LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
発表会議:ICLR 2022
著者:Edward Hu, Yuanzhi Li, Yelong Shen, Shean Wang, Phillip Wallis, Lu Wang, Zeyuan Allen-Zhu, Weizhu Chen
所属:Microsoft Corporation
詳細:効率の良い学習手法であるLoRAの提案
<メモ>
学習に必要なパラメータ数を大幅に削減できた
ベースラインと同等かそれ以上の性能
LoRAを適用する最適な重みやハイパーパラメータの影響
M×N行列の重みをM×rとr×Nの重み行列に分解した様な低ランク行列を追加し学習
2025/3/3
⑱Stylus: Automatic Adapter Selection for Diffusion Models
発表会議:NeurIPS 2024
著者: Michael Luo, Justin Wong, Brandon Trabuccom Yanping Huang, Joseph E. Gonzalez, Zhifeng Chen, Ruslan Salakhutdinov, Ion Stoica
所属:UC Berkeley, CMUMLD, GoogleDeepmind
詳細:画像生成時に最適なLoRAモデルを入力されたプロンプトを基に検索し統合するシステムの提案
<メモ>
ユーザが入力した画像生成時のプロンプトを参考にした最適な複数のLoRA検索とその統合
よりプロンプトに忠実な画像生成
LoRAモデルのメタデータを複数利用しVLMでLoRAモデル説明文を生成
説明文をembeddingしLoRAベクトルとして利用
プロンプトとの類似度が高いLoRAモデルを選別しプロンプトと最も関連するLoRAモデルをLLMで特定
通常のSD1.5による生成画像よりも高品質で多様な画像
2025/5/15
⑲DLP-LoRA: Efficient Task-Specific LoRA Fusion with a Dynamic, Lightweight Plugin for Large Language Models
発表会議:ICLR リジェクト
著者:Yuxuan Zhang、Ruizhe Li
所属:Department of Computing Science, University of Aberdeen
詳細:大規模言語モデルにおける入力文レベルの複数のLoRAの動的統合手法の提案
<メモ>
入力文単位でLoRAを選択することで効率的かつ高精度なマルチタスク推論が可能
4層のミニMLPの学習
MLP分類器による分類結果に基づくLoRAの選択と統合
既存のLoRA動的検索手法と精度比較
2025/6/18
⑳MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models
発表会議:ICLR 2025
著者:Jingwei Xu, Junyu Lai, Yunpeng Huang
所属:Department of Computer Science and Technology, Nanjing University
詳細:複数の既存LoRAアダプタを1つの大規模言語モデル(LLM)に埋め込み、推論時に自律的に適切なLoRAを選択・切替できる仕組みの提案
<メモ>
複数のLoRAアダプタの低ランク行列 {A₁,B₁}, {A₂,B₂}, ..., {Aₙ,Bₙ} を保持
入力トークンごとにゲーティングネットワーク G(x) を通して、適切なLoRA(top-k)を選択
選ばれたLoRAの出力を重み付き合成し、出力に加算
LoRAは一切再学習不要で 訓練対象はゲーティングネットワークのみ
通常のMoE方式では、全LoRAに順にアクセスするため計算コストが非常に高いため効率化(理解×)
2025/6/20
㉑Retrieval-Augmented Mixture of LoRA Experts for Uploadable Machine Learning*
発表会議:なし(arXiv)
著者:Ziyu Zhao, Leilei Gan, Guoyin Wang, Yuwei Hu, Tao Shen, Hongxia Yang, Kun Kuang, Fei Wu
所属:Zhejiang University, ByteDance Inc.
詳細:大規模言語モデル(LLM)における Uploadable Machine Learning(UML) において、新規かつ公開されたLoRAアダプタ群を動的・一般化可能に検索・統合する仕組みを提案
<メモ>
課題として①LoRAプールが継続的に更新される点、②未知タスクへの対応が必要な点、③要求が混合タスクの場合が多い
LoraRetriever(入力依存のLoRA検索):入力プロンプトを埋め込みに変換。 LoRAごとに事前収集された埋め込みとコサイン類似度で比較し、最も関連性の高いLoRA top‑k を動的に選出
On‑the‑fly Mixture of Experts(MoLE): 検索されたLoRAアダプタを、動的に重み付き合成するメカニズム。"RouterLoRA"(軽量な注意機構)を用いて、各LoRAの出力に対する**注意重み(softmax)**を計算し、最終出力を合成
2025/6/23
㉒MIXTURE OF LORA EXPERTS(被引用140↑)*
発表会議:ICLR 2024
著者:Xun Wu, Shaohan Huang, Furu Wei
所属:Microsoft Research Asia 、Tsinghua Univeristy
詳細:ゲーティング関数(軽量MLP)を用いた複数のLoRAモデル(低ランク適応)を効果的かつ柔軟に合成する手法の提案
<メモ>
ゲーティング関数(gating function)とは、複数の選択肢(モデル、重み、出力など)から「どれをどの程度使うか」を制御する関数
各LoRAの層ごとの出力を専門家(expert)と見なし、ゲーティング関数で重みを学習的に制御
層ごとにLoRA α, β, γ の貢献度を調整することで、「顔はLoRAα」「服はLoRAβ」などの構成が可能
学習対象はゲーティング関数のみで、LoRA自体や元モデルは一切更新不要(軽量学習)
Vision & LanguageとNLPの両方で有効性を実証。
2025/6/25
㉓Multi-LoRA Composition for Image Generation*
発表会議:TMLR2024
著者:Ming Zhong、Yelong Shen、Shuohang Wang、Yadong Lu、Yizhu Jiao、Siru Ouyang、Donghan Yu、Jiawei Han、Weizhu Chen
所属:University of Illinois Urbana-Champaign、Microsoft Corporation.
詳細:拡散生成プロセス中にLoRAを動的に切り替えるまたは同時に利用する新しい手法を提案(LoRAのマージ)
<メモ>
LoRA Switch(LoRA-s):拡散ステップごと(5が最適)に一つのLoRAのみを活性化し、一定間隔ごとに次のLoRAへ切り替えていく手法
LoRA Composite(LoRA-c):拡散の各ステップですべてのLoRAを同時に利用する手法。 Classifier-Free Guidance(CFG)をベースに、各LoRAによる条件付き・非条件付きスコアを平均して使う。
従来の「LoRAの重み合成」に依存せず(ZipLoRA)、LoRAの使用タイミングと適用方法に着目した研究。
GPT-4Vによる自動評価(構成品質・画像品質)
2025/6/25
㉔THE SUPERPOSITION OF DIFFUSION MODELS USING THE ITÔ DENSITY ESTIMATOR*
発表会議:ICLR 2025 Spotlight
著者:Marta Skreta、Lazar Atanackovic、Avishek Joey Bose、Alexander Tong、Kirill Neklyudov
所属:University of Toronto、Vector Institute、University of Oxford、Mila - Quebec AI Institute、Université de Montréal
詳細:複数の事前学習済み拡散モデル(Diffusion Models)を、再学習なしに推論時に組み合わせる手法の提案
<メモ>
何やってるかよくわからない
SUPERPOSITION(重ね合わせ)操作で柔軟にLoRAを組み合わせ←?
対数密度(log likelihood)を推定するItô密度推定法を導入←?
SuperDiffアルゴリズムによるOR合成・AND合成←?
2025/6/27
㉕CLoRA: A Contrastive Approach to Compose Multiple LoRA Models*
発表会議:ICLR 2025審査中
著者:Tuna Han Salih Meral, Enis Simsar, Federico Tombari, Pınar Yanardag
所属:Virginia Tech、ETH Zurich、TUM、Google
詳細:推論時(画像生成時)に複数LoRAを組み合わせ各LoRAの概念を忠実に保持した画像生成を行うコントラスト学習を用いたシステムの提案
<メモ>
入力されたプロンプトに対し各対象LoRA毎に分解・拡張を行う
Diffusionの各ステップで生成されるクロスアテンションマップをLoRaコンセプトごとにグループ化(LoRAが効く対象領域を識別)
グループ化する際にコントラスト学習
2025/6/29
㉖LORA-COMPOSER: LEVERAGING LOW-RANK ADAPTATION FOR MULTI-CONCEPT CUSTOMIZATION IN TRAINING-FREE DIFFUSION MODELS*
発表会議:ICLR 2025審査中
著者:Yang Yang, Wen Wang, Liang Peng, Chaotian Song, Yao Chen, Hengjia Li, Xiaolong Yang, Qinglin Lu, Deng Cai, Boxi Wu, Wei Liu
所属:State Key Lab of CAD&CG, Zhejiang University、The School of Software Technology, Zhejiang University、Fabu Inc.、Tencent Inc.
詳細:複数LoRAを併用するマルチコンセプト画像(3人のキャラクターが映った画像)生成のためのフレームワークの提案
2025/6/29
㉗LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers*
発表会議:なし(arXiv)
著者:Yusuf Dalva, Hidir Yesiltepe, Pinar Yanardag
所属:Virginia Tech
詳細:複数LoRAを併用するマルチコンセプト画像(3人のキャラクターが映った画像)生成のためのフレームワークの提案
<メモ>
LoRAクロストーク:LoRAマージの際に干渉しあい正しく反映できない現象
2025/6/25
㉘LoRA Fusion: Enhancing Image Generation*
発表会議:MDPI/mathematics 2024
著者:Dooho Choi, Jeonghyeon Im, Yunsick Sung
所属:Department of Computer Science and Artificial Intelligence, Dongguk University-Seoul,Seoul 04620, Republic of Korea
詳細:画像生成の際にプロンプトを基にLoRAを動的に検索し統合するシステムの提案
<メモ>
各LoRAモジュールの特性を捉えた「特性テキスト」を手動で作成し、埋め込みモデルによってLoRAキーベクトルに変換・保存
ユーザプロンプトも同様に変換しコサイン類似度で検索→softmaxで重み付きLoRA統合
追加学習不要で計算効率が高い
2025/7/8
㉙CACHED MULTI-LORA COMPOSITION FOR MULTI CONCEPT IMAGE GENERATION*
発表会議:ICLR 2025
著者:Xiandong Zou, Mingzhu Shen∗ ,Christos-Savvas Bouganis, Yiren Zha
所属: Imperial College London, UK
詳細:複数のLoRAを効率的に統合しつつ、一貫性のある画像生成を維持するように設計された、訓練不要なフレームワークの提案
<メモ>
LoRAを適用する際、エッジやテクスチャに影響を与える高周波数LoRAと全体構造、なめらかな色などに影響を与える低周波数LoRAに分けられることが分かった
LoRAを高周波・低周波に分類し適用の際には高周波→低周波の順番
2025/7/11
㉚Multimodal Instruction Tuning with Conditional Mixture of LoRA*
発表会議:ACL 2024
著者:Zhiyang Xu、Wenpeng Yin、Lifu Huang、Qifan Wang、Ying Shen、Yu Cheng
所属:Virginia Tech、Meta AI、The Chinese University of Hong Kong、The Pennsylvania State University
詳細:マルチモーダル大規模言語モデルのタスク干渉を軽減するため、LoRAの低ランク分解因子を動的に選択・結合するMixLoRAを提案
<メモ>
マルチモーダルチューニング:事前学習済みモデルを多様なマルチモーダルタスクで命令に基づいてFT
入力インスタンスに基づいて統合するLoRA間の相互依存関係も踏まえつつ、低ランク行列内の各レイヤーの選択を行う
従来のMOEをレイヤー単位で行う感覚
2025/7/11
㉛LoRA-Switch: Boosting the Efficiency of Dynamic LLMAdapters via System-Algorithm Co-design*
発表会議:arXiv(プレプリント)
著者:Rui Kong、Qiyang Li、Xinyu Fang、Qingtian Feng、Qingfeng He、Yazhu Dong、Weijun Wang、Yuanchun Li、Linghe Kong、Yunxin Liu
所属:Shanghai Jiao Tong University、清華大学AI産業研究院 (AIR)、Shanghai Artificial Intelligence Laboratory、National University of Singapore
詳細:動的LoRAアダプタの推論レイテンシを大幅に削減するため、トークン単位ルーティングと最適化されたCUDAカーネル(SGMM)を用いたLoRA-Switchを提案
<メモ>
軽量なアダプタを事前学習済みモデルに統合し動的にLoRA選択が可能なMOE構造を持つLoRA検索手法は推論時間が大幅に増加
推論時間の大幅な短縮
2025/7/11
㉜LoRASoups: Merging LoRAs for Practical Skill Composition Tasks*
発表会議:COLING 2025
著者:Akshara Prabhakar、Sham Kakade、Eran Malach、Yuanzhi Li、Karthik Narasimhan、Samy Jelassi
所属:Princeton University、Harvard University、Microsoft Research
詳細:LoRAを用いたLLMのスキル合成タスクにおいて、個別に学習したLoRAを最適に結合する「Learnable Concatenation (CAT)」手法の提案
<メモ>
ターゲットのタスクの訓練データが不足している場合に個別タスクで学習されたLoRAを組み合わせることで問題解決を測る(スキル合成タスク)
複雑な数学文章問題を解くために、数学的推論スキルとプログラミングスキルの組み合わせが必要
単純な線形結合の後、各タスクの5%程度のデータを用いてLoRAの層ごとのマージ係数を学習
2025/7/16
㉝Towards Modular LLMs by Building and Reusing a Library of LoRAs*
発表会議:ICML 2024
著者:Edoardo Maria Ponti、Oleksiy Ostapenko、Zhan Su、Laurent Charlin、Nicolas Le Roux、Matheus Pereira、Lucas Caccia、Alessandro Sordoni
所属:Microsoft Research、Mila Quebec AI Institute、Université de Montréal、University of Copenhagen、University of Edinburgh、HEC Montréal Canada CIFAR AI Chair
詳細:LoRAアダプタのライブラリ構築と再利用.。タスクの類似性に基づくクラスタリング手法MBCと、訓練不要で関連アダプタを選択するルーティングメカニズムArrowを提案
<メモ>
Model-Based Clustering (MBC) (モデルベースクラスタリング)
個別でトレーニングしたLoRAのパラメータに対しSVDによる次元圧縮とコサイン類似度に基づくk-Meansクラスタリング
各クラスタ内でそのクラスタのすべてのタスクのデータセットを統合し1つのLoRAを訓練
Arrowルーティング (Arrow Routing)
LoRAのパラメータのSVDの最初の右特異ベクトルと各トークンとの類似度を算出して上位K件を選択
2025/8/6
㉞Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation*
発表会議:CVPR 2025
著者:Gianluca Villani、Theodoros Panagiotakopoulos、Marc Botet Colomer、Reza Qorbani、Linus Härenstam-Nielsen、Mattia Segu、Pier Luigi Dovesi、Daniel Cremers、Federico Tombari、Matteo Poggi、Jussi Karlgren
所属:The Good AI Lab、University of Toronto、KTH Royal Institute of Technology、AMD、Silo AI、Technical University of Munich、ETH Zurich、Munich Center for Machine Learning、Google、University of Bologna
詳細:オープンボキャブラリーセマンティックセグメンテーションのドメインシフト問題(例:訓練データは昼の画像でテストデータは夜の画像)に対し、CLIP埋め込みでインデックス化されたLoRAアダプタライブラリを動的にマージする訓練不要なテスト時適応フレームワークSemLAを提案
<メモ>
オープンボキャブラリーセマンティックセグメンテーション(Open-Vocabulary Semantic Segmentation、OVSS)
事前に定義されたクラスのセットに縛られず、テキストクエリを使って任意のカテゴリのピクセルを識別できるセマンティックセグメンテーションの一種
セマンティックセグメンテーション:画像の各ピクセルにラベルを割り当てるタスク
OVSSモデルに対して多数のドメインでLoRAFTし訓練データ画像に対しCLIPで平均ベクトルを取得
OVSSモデルに対して入力された画像に対してCLIPで埋め込みを計算しLoRA埋め込みと類似度算出し上位K件を選択
類似度を基にスケール値を計算しモデルマージ
2025/8/5
㉟LoRA Recycle: Unlocking Tuning-Free Few-Shot Adaptability in Visual Foundation Models by Recycling Pre-Tuned LoRAs
発表会議:CVPR 2025
著者:Zixuan Hu 、Yongxian Wei 、Li Shen 、Chun Yuan 、Dacheng Tao
所属:Nanyang Technological University, Singapore 、Tsinghua University, China 、Shenzhen Campus of Sun Yat-sen University, China
詳細:ビジュアル基盤モデル(VFM)におけるチューニングフリーの少数ショット適応能力の実現
<メモ>
大規模言語モデル(LLM)がファインチューニングなしで強力な適応性を示すのに対し、VFMは一般的に十分なデータを用いた明示的なファインチューニングが必要な現状
LoRA Recycleという多様な事前チューニング済みLoRAモジュールを、元の訓練データなしで再利用するフレームワークを提案
合成データ: 事前チューニング済みLoRA自体から逆生成された合成データを利用(著作権的に訓練データが利用できないという想定)
メタ学習目的: 事前チューニング済みLoRAから、meta-LoRAを蒸留
既存のLoRAを基にfew-shotにおける分類タスクの解き方を学習←メタ学習(学習を学習する)
2025/10/24
㊱LoRAverse: A Submodular Framework to Retrieve Diverse Adapters for Diffusion Models
発表会議:ICCV 2025
著者:Mert Sonmezer, Matthew Zheng, Pinar Yanardag
所属:Middle East Technical University、Virginia Tech
詳細:テキストプロンプトに基づく多様性を考慮した最適なLoRA組み合わせの検索
<メモ>
LLMでプロンプトをコンセプトに分解
コンセプトごとに多様なLoRAを複数選択
LoRAをクラスタリングし、未探索のクラスタからLoRAを選択することで多様なLoRA選択
劣モジュラ最適化という数学的手法による多様性を考慮した検索
2025/10/17
㊲DAM: Dynamic Adapter Merging for Continual Video QA Learning
発表会議: ICCV 2025
著者: Feng Cheng, Ziyang Wang, Yi-Lin Sung, Yan-Bo Lin, Mohit Bansal, Gedas Bertasius
所属: University of North Carolina at Chapel Hill
詳細:動画QAにおけるドメイン逐次学習(Domain-Incremental Learning: DIL)に対して、
“Dynamic Adapter Merging (DAM)” を提案。複数アダプタを**重み付きで合成(merge)**し、そのサンプル専用の新しいアダプタを毎回動的生成する
<メモ>
動画QAの連続学習において、過去アダプタを維持しながら新しいドメインを学習
入力ごとに Router がアダプタの重みを割り当て、合成アダプタを生成
アダプタはドメインごとに学習し、基盤モデルは凍結
Router は非パラメトリック(プロトタイプとの類似度のみ)
逐次学習における forgetting を抑えるため、過去アダプタの重みで初期化
合成アダプタ方式は、個別アダプタを1つ選ぶ方式よりも堅牢
2026/04/16
㊳Adapters Selector: Cross-domains and Multi-tasks LoRA Modules Integration Usage Method
発表会議:COLING2025
著者:Yimin Tian , Bolin Zhang, Zhiying Tu , Dianhui Chu
所属:Harbin Institute of Technology(Harbin), Harbin Institute of Technology(Weihai)
詳細:入力タスクに基づいたLoRA選択LoRAによる最適なLoRAの動的な選択・統合
<メモ>
自然言語処理タスクでLoRAを作成
入力に対応するLoRAを検索するセレクター(LoRA)を学習
複数の条件下(Embedding手法、ハイパーパラメータ、検索アプローチ等)で提案手法の検索精度を評価
入力に基づくLoRA選択と統合による推論において既存手法より高精度
LLM自体の埋め込み層によるベクトル化が有効
2025//
㉚
発表会議:
著者:
所属:
詳細:
<メモ>
2025//
㉚
発表会議:
著者:
所属:
詳細:
<メモ>
2025//
㉚
発表会議:
著者:
所属:
詳細:
<メモ>
2025//
㉚
発表会議:
著者:
所属:
詳細:
<メモ>
#Daichi_Sugita