计算统计学测试知识总结

1 逆变换法

逆变换法的基本原理是:对于一个连续随机变量 X,其概率密度函数(pdf)为 f(x),累积分布函数(cdf)为 F(x),则 Y = F(X) 是一个均匀分布在 [0, 1] 的随机变量。因此,如果我们能够求出 F(x) 的反函数 F1(x)F^{-1} (x),那么我们就可以通过以下步骤生成随机变量 X 的样本:

  1. 生成一个均匀分布在 [0, 1] 的随机数 y。
  2. 计算 x = F^-1(y)。

2 接受-拒绝抽样法

接受-拒绝抽样法的基本原理是:对于我们想要抽样的目标分布 f(x),找到一个易于抽样的提议分布 g(x),使得对于所有的 x,都有 f(x) ≤ M * g(x)。然后我们可以通过以下步骤生成随机变量 X 的样本:

  1. 从 g(x) 中抽取一个样本 y。
  2. 生成一个 [0, M*g(y)] 之间的均匀随机数 u。
  3. 如果 u ≤ f(y),则接受 y 作为样本;否则,拒绝 y,返回步骤 1。

3 VAE GAN

论文链接:

https://arxiv.org/abs/1312.6114

https://arxiv.org/abs/1406.2661

变分自编码器(VAE)

变分自编码器是一种生成模型,它使用概率编码器和解码器来建模数据的潜在分布。VAE的主要思想是,首先使用编码器将输入数据编码为潜在空间中的一点,然后使用解码器将这个点解码为原始数据空间。编码器和解码器都是参数化的神经网络,可以通过最大化数据的边际对数似然性和最小化潜在变量的KL散度来进行训练。

在"Auto-Encoding Variational Bayes"这篇文章中,作者提出了一种新的随机变分推理和学习算法,该算法可以扩展到大型数据集,并且在一些温和的可微性条件下,甚至可以在不可处理的情况下工作。

生成对抗网络(GAN)

生成对抗网络是另一种生成模型,它通过同时训练两个模型来生成数据:一个生成模型G,用于捕获数据分布;一个判别模型D,用于估计样本是来自训练数据还是生成模型G。G的训练过程是最大化D犯错误的概率。这个框架对应于一个最小最大二人博弈。

在"Generative Adversarial Networks"这篇文章中,作者提出了一种新的框架,用于通过对抗过程来估计生成模型。在任意函数G和D的空间中,存在一个唯一的解决方案,其中G恢复训练数据分布,D在所有地方都等于1/2。在G和D由多层感知器定义的情况下,整个系统可以通过反向传播进行训练。

4 Metropolis-Hastings算法

Metropolis-Hastings算法是一种在统计计算中广泛使用的马尔可夫链蒙特卡罗(MCMC)方法。这种算法的目标是通过构建一个马尔可夫链来生成一个目标概率分布的样本。这个算法是由Nicholas Metropolis和他的同事在1953年首次提出的,后来在1970年由W.K. Hastings进行了扩展和普及。

以下是Metropolis-Hastings算法的基本步骤:

  1. 初始化:选择一个初始状态x,并设置一个提议分布Q(x’|x),这个分布用于生成新的候选状态。

  2. 生成候选状态:从当前状态x出发,使用提议分布Q(x’|x)生成一个新的候选状态x’。

  3. 计算接受概率:计算接受新状态的概率,这个概率是目标分布P(x’)和提议分布Q(x|x’)的函数。接受概率通常定义为:

    a(x,x)=min(1,P(x)Q(xx)P(x)Q(xx))a\left(x, x^{\prime}\right)=\min \left(1, \frac{P\left(x^{\prime}\right) Q\left(x \mid x^{\prime}\right)}{P(x) Q\left(x^{\prime} \mid x\right)}\right)

    其中P(x)是目标分布,Q(x’|x)是从状态x到状态x’的提议分布。

  4. 接受或拒绝:生成一个均匀分布在[0,1]之间的随机数u。如果u <= a(x, x’),则接受新的状态x’,否则保持当前状态x不变。

  5. 重复:返回步骤2,直到生成足够多的样本。

这个算法的一个重要特性是,它可以处理非规范化的目标分布,也就是说,如果我们只知道目标分布的一个比例常数,也可以使用这个算法。这在实际应用中是非常有用的,因为很多时候我们只能得到目标分布的一个非规范化的形式。

Metropolis-Hastings算法在统计物理、贝叶斯统计和机器学习等领域都有广泛的应用。

Gibbs抽样算法

Gibbs抽样算法是一种用于在多维概率分布中进行抽样的方法,特别是在贝叶斯统计中,当直接抽样困难时,可以使用Gibbs抽样。这种方法是马尔可夫链蒙特卡洛(MCMC)抽样方法的一种特例,由Stuart Geman和Donald Geman在1984年首次提出。

基本步骤

  1. 初始化:选择一个初始样本点。
  2. 迭代:对于每个维度,按照以下步骤进行:
    • 固定其他维度的值,只考虑当前维度。
    • 根据当前维度的条件概率分布抽取一个新的值。
    • 更新当前维度的值。
  3. 收敛:经过足够多的迭代后,样本点的分布将收敛到目标分布。

优点

  • Gibbs抽样算法在处理高维问题时具有优势,因为它一次只需要处理一个维度,这使得计算变得更加简单。
  • Gibbs抽样算法不需要接受-拒绝步骤,因此在某些情况下,它比其他MCMC方法更有效。

缺点

  • Gibbs抽样可能会受到初始值的影响,需要足够多的迭代才能消除这种影响。
  • 如果各维度之间的相关性很强,Gibbs抽样的效率可能会降低。
  • Gibbs抽样需要知道条件概率分布,这在某些情况下可能难以获得。

计算统计学测试知识总结
https://fulequn.github.io/2023/05/Article202305251/
作者
Fulequn
发布于
2023年5月25日
许可协议