利用Monte Carlo方法获得参数梯度的无偏估计的策略梯度已广泛用于强化学习中。 政策梯度中的一个关键问题是减少估算的方差。 从统计的角度来看,带有策略基线的策略梯度是一种成功的策略梯度降低方法,它直接将控制变量方法(蒙特卡洛中使用的传统方差降低技术)应用于策略梯度。 控制变量方法的一个问题是估计的质量在很大程度上取决于控制变量的选择。 为了解决这个问题并从对数减少的对立变量方法中得到启发,我们建议将对立变量方法与传统的策略梯度相结合,解决多臂匪徒问题。 此外,我们实现了一种新的策略梯度算法,称为“反臂强盗”(AAB)。 在AAB中,梯度是通过坐标上升来估算的,其中,在每次迭代中,目标臂的梯度是通过以下方式估算的:1)构建一系列臂,该臂序列在估计梯度方面近似单调; 2)在该臂上采样一对对立臂3)根据采样对重新估算目标梯度。 理论分析证明,AAB实现了无偏和方差减小的估计。 基于多武装匪徒任务的实验结果表明,AAB可以达到最先进的性能。