论文信息 - Beyond Training Objectives: Interpreting Reward Model Divergence in Large Language Models - 字舞流文

Beyond Training Objectives: Interpreting Reward Model Divergence in Large Language Models

Fazl Barez | Luke Marks | Amir Abdullah | Rauno Arike | Philip Torr | Clement Neo