A2C 是 Advantage Actor-Critic 的缩写,指一种强化学习算法:用“演员(Actor)”产生动作策略,用“评论家(Critic)”估计价值,并利用“优势函数(Advantage)”来更稳定、低方差地更新策略。(在不同领域里也可能有其他含义,但最常见于强化学习。)
/ˌeɪ tuː ˈsiː/
I trained an agent with A2C on a simple grid world. 我用 A2C 在一个简单的网格世界里训练了一个智能体。
Compared with basic policy gradients, A2C often learns faster because the critic provides a value-based baseline. 与基础的策略梯度方法相比,A2C 往往学得更快,因为评论家提供了基于价值的基线来降低更新的方差。
A2C 来自算法名称 Advantage Actor-Critic 的首字母缩写: