论文信息 - Fine-Tuning Language Models with Advantage-Induced Policy Alignment - 字舞流文

Fine-Tuning Language Models with Advantage-Induced Policy Alignment

M.I. Jordan | Banghua Zhu | Jiantao Jiao | Shi Dong | Hiteshi Sharma | Chenguang Zhu | F. Frujeri