The optimal Reward Baseline for Gradient-Based Reinforcement Learning

Date

2001

Weaver, L

Tao, Nigel

Morgan Kauffman Publishers

Uncertainty in Artificial Intelligence: Proceedings of the Seventeenth Conference (2001)

Conference paper