Tag:
强化学习中的收益骇客
强化学习中,当智能体利用收益函数的漏洞或模糊性以获取更高的收益值而非真正去学习或者完成训练任务时,我们称此类行为叫收益侵入(reward hacking)。收益骇客之所以存在,是因为强化学习的环境不是完美的。并且,设计一个精准的收益函数是一件极具挑战性的工作。
强化学习中,当智能体利用收益函数的漏洞或模糊性以获取更高的收益值而非真正去学习或者完成训练任务时,我们称此类行为叫收益侵入(reward hacking)。收益骇客之所以存在,是因为强化学习的环境不是完美的。并且,设计一个精准的收益函数是一件极具挑战性的工作。