论文信息 - Optimizing Long-term Value for Auction-Based Recommender Systems via On-Policy Reinforcement Learning - 字舞流文

Optimizing Long-term Value for Auction-Based Recommender Systems via On-Policy Reinforcement Learning

F. Liu | Jalaj Bhandari | D. Korenkevych | Ruiyang Xu | Zheqing Zhu | Alex Nikulkov | Yuchen He