文
论文分享
演练场
杂货铺
论文推荐
字
编辑器下载
登录
注册
Luna Mendez
发表
Interpreting Reward Models in RLHF-Tuned Language Models Using Sparse Autoencoders
Fazl Barez, Luke Marks, Amir Abdullah, 2023, ArXiv.