论文信息 - Language Model Self-improvement by Reinforcement Learning Contemplation - 字舞流文

Language Model Self-improvement by Reinforcement Learning Contemplation

Zongzhang Zhang | Jiacheng Xu | Xiong-Hui Chen | Yang Yu | Kaiyuan Li | Jing-Cheng Pang | Pengyuan Wang