Stochastic Gradient Ascent

释义 Definition

随机梯度上升：一种优化方法，通过对目标函数（常见为对数似然或某个需要“最大化”的指标）的梯度进行迭代更新来寻找更大值；“随机”指每次用随机抽样的数据（如单个样本或小批量 mini-batch）来近似整体梯度，从而降低每步计算成本。也常与“随机梯度下降”（最小化）成对出现。

发音 Pronunciation (IPA)

/stəˈkæstɪk ˈɡreɪdiənt əˈsɛnt/

例句 Examples

We used stochastic gradient ascent to maximize the log-likelihood.
我们使用随机梯度上升来最大化对数似然。

In large-scale logistic regression, stochastic gradient ascent updates the parameters using a noisy gradient estimate from each mini-batch, which often speeds up training despite added variance.
在大规模逻辑回归中，随机梯度上升用每个小批量数据得到的带噪声梯度估计来更新参数；尽管方差更大，但常常能加快训练。

词源 Etymology

stochastic 来自希腊语 stokhastikos，与“猜测、推断、随机性”相关，强调含有不确定或抽样成分。
gradient 源于拉丁语 gradiens（“行走、逐步变化”），在数学里指“变化率的方向与大小”。
ascent 来自拉丁语 ascendere（“向上攀登”），在优化语境中指“沿着使目标增大的方向前进”。

文学与名著用例 Literary Works

Pattern Recognition and Machine Learning（Christopher M. Bishop）：在最大化对数似然、在线学习等章节讨论相关的梯度方法（含随机/在线更新思想）。
Machine Learning: A Probabilistic Perspective（Kevin P. Murphy）：在概率模型训练与最大化目标函数时使用并提及（随机）梯度上升/下降。
The Elements of Statistical Learning（Hastie, Tibshirani, Friedman）：在统计学习优化与大规模估计的语境中涉及随机近似与迭代优化方法。
Deep Learning（Goodfellow, Bengio, Courville）：在神经网络训练的优化章节广泛讨论随机梯度类方法（虽更常以“SGD”表述，但同属随机梯度迭代思想）。
Robbins & Monro（1951）关于随机逼近（stochastic approximation）的经典论文：为随机梯度类方法的理论基础之一。