AI Algorithms

Flow Matching:从扩散噪声到确定性运输

Misaya Yang

把生成模型从反向去噪改写成概率路径、速度场和数值采样的运输问题:Flow Matching 如何连接 Diffusion、CNF、Rectified Flow 与 OT-CFM。

Diffusion Models, Rectified Flow, Optimal Transport, Continuous Normalizing Flow, Transformer, Flow Matching, Generative Modeling

Flow Matching:从扩散噪声到确定性运输 Flow Matching 最容易被讲成“比 Diffusion 更快的新训练目标”。这个说法有一点道理,但太窄。它真正有意思的地方,是把生成模型从“反向去噪”改写成“分布运输”:先选一条从噪声分布走向数据分布的概率路径,再学习路径上每个位置应该移动的速度场。 换句话说,模型不再只回答“这个 noisy sample 里原图是什么”,而是在回答一个更动力系统的问题: 当前点处在生成轨迹的哪个阶段,下一步应该往哪个方向走? 这个视角把很多看似分散的路线放到同一张图里:Continuous Normalizing Flow、Probability Flow ODE、Diffusion、Rectified Flow、Optimal Transport、Stochastic Interpolants,甚至离散数据和几何空间上的生成模型。Flow Matching 不只是一个 loss,而是一种重新组织生成建模问题的语言。 1. 从去噪到运输 先把图像、音频、视频这些具体模态都放下。生成模型的底层问题可以写得很朴素:从一个简单分布采样噪声,再把它推到数据分布。 p 0(z) mathcal{N}(0, I) p 1(x) p { text{data}}(x) Flow Matching 把这个过程写成一个时间相关的 ODE: frac{dx t}{dt} v t(x t), quad x 0 sim p 0, quad x 1 sim p { text{data}} 这里的 v t(x) 是模型要学的 velocity field。只要速度场足够准,从 t 0 积分到 t 1 ,噪声分布就会被推到数据分布。 从密度演化的角度看,这个 ODE 对应连续性方程: frac{ partial p t(x)}{ partial t}+ nabla cdot left(p t(x)v t(x) right) 0 这也是 Flow Matching 和普通回归任务的分界。它学到的不是一张图的局部修补函数,而是推动整个概率分布流动的动力系统...