自适应 MCMC 方法：提高采样效率的尝试

April 13, 2019

传统的马尔可夫链蒙特卡洛方法在面对复杂的高维分布时，常常面临收敛速度慢、采样效率低下等问题。为了克服这些缺陷，研究人员提出了一系列自适应 MCMC 方法，旨在通过动态调整算法参数来提高采样效率。本文将介绍早期自适应 MCMC 方法的发展，重点关注自适应 Metropolis 算法、自适应提议分布的原理、自适应 MCMC 的优势和挑战，以及其他一些重要的自适应 MCMC 变体。

自适应 Metropolis 算法 (AM)

传统 Metropolis 算法的局限性

在介绍自适应 Metropolis 算法之前，我们首先回顾一下传统 Metropolis 算法的基本原理。Metropolis 算法是最早提出的 MCMC 方法之一，其核心思想是通过构造一个马尔可夫链来对目标分布进行采样。在每一步迭代中，算法会根据当前状态生成一个候选状态，然后根据一个特定的接受准则决定是否接受这个候选状态。

然而，传统 Metropolis 算法的一个主要缺点是其提议分布（用于生成候选状态的分布）是固定的，通常是以当前状态为中心的正态分布。这种固定的提议分布在面对复杂的目标分布时，可能会导致以下问题：

如果提议分布的尺度太小，算法会产生高接受率但移动缓慢，导致链的混合效果差。
如果提议分布的尺度太大，算法会频繁拒绝候选状态，同样导致采样效率低下。
对于高维问题，很难手动为每个维度选择合适的提议分布尺度。

AM 算法的基本原理

为了解决上述问题，Haario 等人在 2001 年提出了自适应 Metropolis (Adaptive Metropolis， AM) 算法。AM 算法的核心思想是利用马尔可夫链的历史信息来动态调整提议分布。具体来说，AM 算法使用链的历史样本来估计目标分布的协方差结构，并用这个估计来更新提议分布。

AM 算法的主要步骤如下：

初始化：选择一个初始点 $x_0$ 和一个初始协方差矩阵 $\Sigma_0$。
对于每一步 $t = 1, 2, …$:
1. 使用当前的协方差矩阵 $\Sigma_{t-1}$ 生成候选点：$x^* \sim \mathcal{N}(x_{t-1}, \frac{2.38^2}{d}\Sigma_{t-1})$
2. 按照 Metropolis 准则接受或拒绝候选点，得到 $x_t$
3. 更新协方差矩阵估计：$\Sigma_t = \Sigma_{t-1} + \beta(t)((x_t - \mu_t)(x_t - \mu_t)^T - \Sigma_{t-1})$

其中，$d$ 是问题的维度，$\beta(t)$ 是一个随时间衰减的学习率，$\mu_t$ 是当前链的经验均值。

需要说明的是这里的 $2.38$ 并不是一个随意选择的数值，而是基于理论推导和实证研究得出的一个近似最优缩放因子。Gelman 等人在 1996 年的研究中证明，对于高维度的标准正态分布目标分布，当提议分布的协方差矩阵是目标分布协方差矩阵的 $2.38^2/d$ 倍时，随机游走 Metropolis 算法的效率最高。这个缩放因子在维度 $d$ 趋于无穷大时是渐近最优的。它在理论上可以使算法达到约 23.4% 的最优接受率。同时这个因子提供了一个很好的平衡点。它既不会使步长太大 (导致低接受率) ,也不会使步长太小 (导致链移动缓慢) 。除以维度 $d$ 的做法确保了在高维问题中，每个维度的平均步长不会太大。

自适应提议分布的原理

在 AM 算法中，自适应提议分布主要通过估计目标分布的协方差矩阵来实现。这个过程是算法的核心，直接影响采样的效率和准确性。协方差矩阵的估计通常采用递归更新的方式，表达式为：

$$\Sigma_t = \Sigma_{t-1} + \beta(t)((x_t - \mu_t)(x_t - \mu_t)^T - \Sigma_{t-1})$$

在这个更新过程中，学习率 $\beta(t)$ 扮演着关键角色。它控制了算法对新信息的敏感度，决定了每次迭代中协方差矩阵调整的程度。选择合适的学习率至关重要：过大可能导致估计不稳定，过小则可能使算法反应迟缓。实践中，常见的做法是使用递减的学习率，如 $\beta(t) = 1/t$。这种设置确保了估计的渐进收敛性，因为随着迭代次数的增加，学习率逐渐减小，使得算法在初期能快速适应，而在后期则更加稳定。

然而，仅仅设置适当的学习率还不足以保证算法的良好表现，特别是在采样的初始阶段。在 MCMC 采样的早期，链还没有充分探索目标分布的特征，此时得到的样本可能不足以准确估计协方差结构。如果直接使用这些不准确的估计来调整提议分布，可能会导致算法性能下降。为了解决这个问题，一种常见的做法是在收集足够的样本之前，使用固定的提议分布。例如，可以在前 $N$ 次迭代中使用预设的协方差矩阵，之后才开始自适应过程。另一种策略是在初始阶段使用较小的学习率，然后逐渐增加，这可以通过 $\beta(t) = \min(C/t, \beta_{\max})$ 实现，其中 $C$ 是一个常数，控制学习率增长的速度，$\beta_{\max}$ 是学习率的上限。

除了学习率和初始阶段的处理，确保估计的协方差矩阵始终是正定的也是算法稳定性和有效性的关键。协方差矩阵必须是正定的，以确保它能够生成有效的多元正态分布。然而，在数值计算中，由于舍入误差或样本的特殊性，估计的协方差矩阵可能变得非正定或接近奇异。为了解决这个问题，一种简单而有效的方法是在每次更新后，向协方差矩阵的对角线上添加一个小的正值，即 $\Sigma_t = \Sigma_t + \epsilon I$，其中 $\epsilon$ 是一个小的正常数（比如 $10^{-6}$），$I$ 是单位矩阵。更复杂的方法包括使用谱分解或收缩估计，这些方法可以在保持矩阵结构的同时确保其正定性。

在实际应用中，这些技术常常需要结合使用并根据具体问题进行调整。例如，可以在算法的不同阶段采用不同的学习率策略，同时持续监控协方差矩阵的条件数，在必要时进行正则化。通过仔细考虑这些因素并采用相应的策略，可以显著提高 AM 算法的性能和稳定性，使其能够有效地处理各种复杂的采样问题。

自适应 MCMC 的优势和挑战

自适应 MCMC 方法的出现标志着采样算法领域的一次重要突破。这类方法巧妙地结合了传统 MCMC 的稳健性和自适应机制的灵活性，为复杂概率分布的高效采样开辟了新的途径。

自适应 MCMC 的核心思想在于动态调整采样过程中的关键参数，使算法能够学习目标分布的特征并相应地优化其行为。这一创新极大地提升了 MCMC 方法在处理高维、复杂分布时的效率和适用性。例如，在面对高度相关或尺度差异显著的参数空间时，传统 MCMC 可能需要大量的人工调试才能获得令人满意的性能。而自适应 MCMC 则能够自动调整提议分布的形状和尺度，显著减少了人为干预的需要，使得算法在各种不同类型的问题上都能展现出强大的适应能力。

然而，自适应机制的引入也带来了一系列新的挑战。最突出的问题之一是理论保证的复杂性。传统 MCMC 方法的收敛性建立在马尔可夫链细致平衡条件的基础上，而自适应过程可能会破坏这一条件。这就要求研究人员发展新的理论框架来分析和证明自适应 MCMC 的渐近性质，确保其在长期运行中能够正确地逼近目标分布。

另一个值得关注的挑战是计算效率与自适应程度之间的权衡。虽然自适应机制能够提高采样效率，但更新提议分布（尤其是在高维情况下更新协方差矩阵）本身也是计算密集型的操作。如何在提高采样质量和控制计算开销之间找到平衡点，成为了算法设计中的一个关键问题。

此外，自适应过程的稳定性也是一个需要谨慎处理的问题。过于激进的自适应策略可能导致算法过度拟合当前的采样状态，损害其探索整个参数空间的能力。特别是在采样初期，由于累积的信息有限，自适应估计的准确性往往不高，可能会误导算法朝着次优的方向发展。

其他自适应 MCMC 变体

自适应 MCMC 方法的发展并未止步于 AM 算法。随着研究者们不断探索和创新，一系列新的自适应 MCMC 变体应运而生，每一种都为特定问题或场景带来了独特的优势。这些方法巧妙地融合了自适应思想与其他先进技术，进一步提升了 MCMC 采样的效率和适用性。

自适应 Metropolis-Hastings (AMH)

与 AM 算法仅调整提议分布的尺度不同，AMH 更进一步，同时优化提议分布的形状。这是通过引入一个参数化的提议分布族实现的。算法在运行过程中，通过最大化期望接受率来动态调整这些参数，使得提议分布能够更好地匹配目标分布的局部特征。这种方法在处理复杂、高度非对称的分布时表现出色，因为它能够更精确地捕捉分布的几何特性。

区域自适应 Metropolis (RAM)

RAM 的核心思想是将参数空间划分为多个区域，并在每个区域内应用不同的自适应策略。这种方法特别适合于处理多模态分布，因为它能够在不同的模态周围采用不同的提议机制。例如，在一个模态附近，算法可能会使用较小的步长来精细探索，而在模态之间的区域，则可能采用更大的步长来促进跨模态的跳转。这种灵活性使 RAM 在处理具有复杂地形的分布时表现出色。

自适应 Hamiltonian Monte Carlo (AHMC)

将自适应思想与其他高级 MCMC 技术结合也产生了令人惊叹的成果。AHMC 就是一个典型例子。传统的 HMC 方法利用目标分布的梯度信息来指导采样，这使得它在处理高维问题时特别有效。AHMC 通过自适应调整 HMC 的关键参数——步长和质量矩阵，进一步提高了采样效率。这种自适应机制使得算法能够在不同的参数区域自动选择最优的模拟动力学，从而在保持 HMC 优势的同时，克服了其参数调优困难的缺点。

自适应并行回火 Adaptive Parallel Tempering (APT)

APT 巧妙地结合了并行回火和自适应 MCMC 的优点。APT 同时运行多个不同温度的马尔可夫链，高温链有助于探索整个分布空间，而低温链则专注于局部精细采样。通过自适应调整温度参数和链间交换概率，APT 能够在全局探索和局部精细采样之间取得平衡。这种方法在处理具有多个局部最优解的复杂分布时特别有效，因为它能够有效地克服分布中的低概率区域，从而探索不同的高概率区域（或称为峰值）。

下一步：让我们来 DREAM 一下

自适应 MCMC 方法通过动态调整算法参数，显著提高了 MCMC 采样的效率和适用性。从早期的 AM 算法到各种专门化的变体，自适应 MCMC 已经成为解决复杂采样问题的有力工具。然而，在处理高维、多模态或计算复杂的后验分布时，仍面临挑战。未来研究方向包括完善理论基础、开发高维问题的有效策略、设计自动化系统以及与其他方法的结合。这种持续探索推动了采样方法与优化技术的融合，为下一代 MCMC 算法铺平道路。在接下来的文章中，我们将介绍一个革命性的算法 —— 差分进化自适应 Metropolis（DREAM）算法,展示优化与采样领域的创新融合。

参考文献

Haario, H., Saksman, E., & Tamminen, J. (2001). An adaptive Metropolis algorithm. Bernoulli, 7(2), 223-242.
Andrieu, C., & Thoms, J. (2008). A tutorial on adaptive MCMC. Statistics and Computing, 18(4), 343-373.
Roberts, G. O., & Rosenthal, J. S. (2009). Examples of adaptive MCMC. Journal of Computational and Graphical Statistics, 18(2), 349-367.
Atchadé, Y. F., & Rosenthal, J. S. (2005). On adaptive Markov chain Monte Carlo algorithms. Bernoulli, 11(5), 815-828.
Rosenthal, J. S. (2011). Optimal proposal distributions and adaptive MCMC. Handbook of Markov Chain Monte Carlo, 4(10), 93-112.
Gelman, A., Roberts, G. O., & Gilks, W. R. (1996). Efficient Metropolis jumping rules. Bayesian Statistics, 5(599-608), 42.

马尔可夫链蒙特卡罗方法概述：概率分布采样的经典方法差分进化自适应 Metropolis 算法的诞生：优化与采样的融合