收敛函数的定义 函数图像生成器
金磊 Alex 发自 凹非寺
曾经大热的生成对抗网络(GAN)已经逐渐退居二线。
马里兰大学副教授Tom Goldstein最近的一篇推文引发了广泛关注。
科技圈的大佬们也纷纷关注此事,话题中提到的关键词是Diffusion Model。
在2021年,它可以说是鲜为人知。
类似的话题在国内也引起了讨论。
那么,为何图像生成领域会涌现出这波“后浪推前浪”的趋势呢?
让我们来一探究竟。
它们也成为了网友们的新宠。
而这一切背后的关键就是Diffusion Model。
它的研究最早可以追溯到2015年的一篇论文,但与目前的Diffusion Model有所不同。真正使其发挥作用的是2020年的一项研究,名为Denoising Diffusion Probabilistic Models。
还有另一个逆向过程(Reverse diffusion process),可以看作是Diffusion的去噪推断过程。
在训练阶段,通过最大化模型预测分布的对数似然,来模拟真实数据分布。
上述过程基于DDPM研究展开。
他指出,直到某些研究通过随机微分方程揭示了diffusion model的数学背景,并将其与denoising score matching方法统一起来。
更多细节可参考文末链接中的论文详情。
接下来要探讨的问题是:
DALL·E是一个多模态预训练大模型,“多模态”和“大”字表明其训练数据集庞大且冗杂。
Tom Goldstein教授提到,GAN模型的训练过程中有个难点是确定众多损失函数的鞍点(saddle-point)的最优权重,这是一个复杂的数学问题。
在多层深度学习模型的训练中,需要通过多次反馈直至模型收敛。
但在实际操作中,损失函数往往不能可靠地收敛到鞍点,导致模型稳定性差。即使有技巧来增强鞍点的稳定性,但仍不足以解决问题。
尤其面对复杂、多样化的数据时,鞍点处理变得更为困难。
与GAN不同,DALL·E使用Diffusion Model无需纠结于鞍点问题。它只需最小化一个标准的凸交叉熵损失,而且已知如何使其稳定。
这大大简化了模型训练过程中的数据处理难度。可以说,Diffusion Model从新的数学范式和新颖的角度克服了一道障碍。
GAN模型在训练过程中除了生成器和高斯噪声的映射外,还需要额外训练判别器。这使得训练变得复杂。
相比之下,Diffusion Model只需训练生成器,目标函数简单且无需训练其他网络(如判别器、后验分布等),大大简化了训练过程。
Diffusion Model直接在图像生成领域跨越了GAN的阶段
△Diffusion Model直观图