论文信息 - Interpreting Reward Models in RLHF-Tuned Language Models Using Sparse Autoencoders - 字舞流文

Interpreting Reward Models in RLHF-Tuned Language Models Using Sparse Autoencoders

Fazl Barez | Luke Marks | Amir Abdullah | Luna Mendez | Rauno Arike | Philip Torr