论文信息 - Aligning Agent Policy with Externalities: Reward Design via Bilevel RL - 字舞流文

Aligning Agent Policy with Externalities: Reward Design via Bilevel RL

Furong Huang | Alec Koppel | A. S. Bedi | Mengdi Wang | Souradip Chakraborty | Huazheng Wang | Dinesh Manocha