计算统计学测试知识总结

1 逆变换法

逆变换法的基本原理是：对于一个连续随机变量 X，其概率密度函数（pdf）为 f(x)，累积分布函数（cdf）为 F(x)，则 Y = F(X) 是一个均匀分布在 [0, 1] 的随机变量。因此，如果我们能够求出 F(x) 的反函数 $F^{-1} (x)$ ，那么我们就可以通过以下步骤生成随机变量 X 的样本：

生成一个均匀分布在 [0, 1] 的随机数 y。
计算 x = F^-1(y)。

2 接受-拒绝抽样法

接受-拒绝抽样法的基本原理是：对于我们想要抽样的目标分布 f(x)，找到一个易于抽样的提议分布 g(x)，使得对于所有的 x，都有 f(x) ≤ M * g(x)。然后我们可以通过以下步骤生成随机变量 X 的样本：

从 g(x) 中抽取一个样本 y。
生成一个 [0, M*g(y)] 之间的均匀随机数 u。
如果 u ≤ f(y)，则接受 y 作为样本；否则，拒绝 y，返回步骤 1。

3 VAE GAN

论文链接：

https://arxiv.org/abs/1312.6114

https://arxiv.org/abs/1406.2661

变分自编码器（VAE）

变分自编码器是一种生成模型，它使用概率编码器和解码器来建模数据的潜在分布。VAE的主要思想是，首先使用编码器将输入数据编码为潜在空间中的一点，然后使用解码器将这个点解码为原始数据空间。编码器和解码器都是参数化的神经网络，可以通过最大化数据的边际对数似然性和最小化潜在变量的KL散度来进行训练。

在"Auto-Encoding Variational Bayes"这篇文章中，作者提出了一种新的随机变分推理和学习算法，该算法可以扩展到大型数据集，并且在一些温和的可微性条件下，甚至可以在不可处理的情况下工作。

生成对抗网络（GAN）

生成对抗网络是另一种生成模型，它通过同时训练两个模型来生成数据：一个生成模型G，用于捕获数据分布；一个判别模型D，用于估计样本是来自训练数据还是生成模型G。G的训练过程是最大化D犯错误的概率。这个框架对应于一个最小最大二人博弈。

在"Generative Adversarial Networks"这篇文章中，作者提出了一种新的框架，用于通过对抗过程来估计生成模型。在任意函数G和D的空间中，存在一个唯一的解决方案，其中G恢复训练数据分布，D在所有地方都等于1/2。在G和D由多层感知器定义的情况下，整个系统可以通过反向传播进行训练。

4 Metropolis-Hastings算法

Metropolis-Hastings算法是一种在统计计算中广泛使用的马尔可夫链蒙特卡罗（MCMC）方法。这种算法的目标是通过构建一个马尔可夫链来生成一个目标概率分布的样本。这个算法是由Nicholas Metropolis和他的同事在1953年首次提出的，后来在1970年由W.K. Hastings进行了扩展和普及。

以下是Metropolis-Hastings算法的基本步骤：

初始化：选择一个初始状态x，并设置一个提议分布Q(x’|x)，这个分布用于生成新的候选状态。
生成候选状态：从当前状态x出发，使用提议分布Q(x’|x)生成一个新的候选状态x’。
计算接受概率：计算接受新状态的概率，这个概率是目标分布P(x’)和提议分布Q(x|x’)的函数。接受概率通常定义为：
$a\left(x, x^{\prime}\right)=\min \left(1, \frac{P\left(x^{\prime}\right) Q\left(x \mid x^{\prime}\right)}{P(x) Q\left(x^{\prime} \mid x\right)}\right)$
其中P(x)是目标分布，Q(x’|x)是从状态x到状态x’的提议分布。
接受或拒绝：生成一个均匀分布在[0,1]之间的随机数u。如果u <= a(x, x’)，则接受新的状态x’，否则保持当前状态x不变。
重复：返回步骤2，直到生成足够多的样本。