Copyright 2008-2025 招商牌 版權所有 京ICP備號20090519-1-
近年來,單步擴散模型因其出色的生成性能和極高的推理效率,在圖像生成、文本到視頻、圖像編輯等領域大放異彩。目前主流的訓練方法是通過知識蒸餾,最小化學生模型與教師擴散模型之間的分布差異。然而,現有的方法主要集中在兩條平行的理論技術路線上:
- 基于 KL 散度最小化的方法(如 Diff-Instruct[1],DMD[2] 等):收斂速度快,但可能存在模式崩潰問題,進而導致生成性能差。
- 基于分數散度最小化的方法(如 SIM[3],SiD[4] 等):蒸餾性能更好,但訓練收斂較慢。
這兩條路線似乎在理論上是割裂的。那么,我們能否將它們統一在一個共同的理論框架下?如果可以,這個統一的框架能否帶來更強的模型性能?
來自北京大學、小紅書 hi lab 等機構的華人研究者共同提出了名為 Uni-Instruct 的單步生成大一統理論框架,目前已被 NeurIPS 2025 接收。該框架不僅從理論上統一了超過 10 種現有的單步擴散模型蒸餾方法,更是在多項任務上取得了當前最佳(SoTA)性能。
