Generative Model Learning

Author: CuiEM

Brief Introduction

This learning log of Generative Model is a digital version of my learning note during my postgraduate study. It mostly came from a seriese of video in Youtub (Stanford CS236 and Aladdin Persson) and some papers which will be discussed in detail in the following sections.


PDF Downloading

You can download my learing log file here.


Paper Reading

DreamFusion

这篇论文介绍了一种名为DreamFusion的新技术,它能够通过文本提示生成3D模型。 这项技术的核心在于利用预训练的2D文本到图像扩散模型来实现文本到3D的合成,而 不需要大规模的标记3D数据集和高效的3D数据去噪架构。


TransFusion

这篇论文介绍了一个名为Transfusion的多模态模型训练方法,该方法能够处理离散数据 (如文本或代码)和连续数据(例如图像、音频和视频数据)。Transfusion结合了语言 建模损失函数(下一个词预测)和扩散模型,通过单一的变换器(transformer)来训练 混合模态序列。研究者们预训练了多个参数量高达7B的Transfusion模型,使用文本和 图像数据的混合,并在各种单模态和跨模态基准测试中建立了扩展规律。


Flow-GAN

这篇文章介绍了Flow-GAN,这是一种新型的生成对抗网络,它通过结合最大似然估计和对抗学习 ,能够在生成高质量样本的同时进行精确的概率密度评估。实验表明,Flow-GAN在对抗性训练下 虽然能产生高质量的样本,但得到的对数似然分数很低;而通过最大似然估计训练时,虽然能获得 较高的对数似然分数,但生成的样本质量较差。因此,文章提出了一种混合训练目标,旨在平衡这 两种方法,以提高样本质量和似然估计。在MNIST和CIFAR-10数据集上的实验结果显示,混合训 练目标能够在保持视觉保真度的同时,提高模型的保留似然度。


Diffusion GAN

这篇论文介绍了一种名为Diffusion-GAN的新型生成对抗网络(GAN)框架。Diffusion-GAN通过利用前向扩散链生成高斯混合分布的实例噪声,来训练GAN。这个框架包括三个主要组件:自适应扩散过程、依赖于扩散时间步的判别器和生成器。Diffusion-GAN的核心思想是将观测到的数据和生成的数据都通过相同的自适应扩散过程进行扩散,然后在每个扩散时间步中,判别器学习区分扩散后的真实数据和扩散后生成的数据。生成器则通过判别器的反馈,通过前向扩散链进行反向传播来学习,其长度会自适应调整以平衡噪声和数据水平。


Research Experience

Human Motion Prediction based on Consistency Distillation