论文信息 - Direct Language Model Alignment from Online AI Feedback - 字舞流文

Direct Language Model Alignment from Online AI Feedback

Bilal Piot | Biao Zhang | Alexandre Ramé | Johan Ferret | Misha Khalman | Tianqi Liu | Thomas Mesnard | Tianlin Liu | Mathieu Blondel | Shangmin Guo | Felipe Llinares-López | Yao Zhao