论文信息 - Direct Preference Optimization: Your Language Model is Secretly a Reward Model - 字舞流文

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Christopher D. Manning | Archit Sharma | Chelsea Finn | S. Ermon | Rafael Rafailov | E. Mitchell | Stefano Ermon