论文信息 - Discovering Language Model Behaviors with Model-Written Evaluations - 字舞流文

Discovering Language Model Behaviors with Model-Written Evaluations

Tom B. Brown | Dario Amodei | T. Henighan | Benjamin Mann | Sam McCandlish | C. Olah | Amanda Askell | Jack Clark | Catherine Olsson | Ethan Perez | Sam Bowman | J. Landau | Kamal Ndousse | Deep Ganguli | Saurav Kadavath | Yuntao Bai | John Kernion | Scott Heiner | J. Landis | Sandipan Kundu | Martin Lucas | Dawn Drain | Kamil.e Lukovsiut.e | Danny Hernandez | Nova DasSarma | Nelson Elhage | Zac Hatfield-Dodds | Tristan Hume | Scott Johnston | Nicholas Joseph | Jared Kaplan | Yushi Bai | Timothy Telleen-Lawton | Nicholas Schiefer | Eli Tran-Johnson | Andy Jones | Anna Chen | S. Kravec | Liane Lovitt | Sam Ringer | Sheer El Showk | Daniela Amodei | Kamilė Lukošiūtė | Evan Hubinger | Jeeyoon Hyun | Edwin Chen | Craig Pettit | C. McKinnon | Dustin Li | Jared Mueller | Noem'i Mercado | Karina Nguyen | Brian Israel | Bryan Seethor | Daisong Yan | G. Khundadze | Jamie Kerr | L. Goldberg | Michael Sellitto | Miranda Zhang | Neerav Kingsland | Oliver Rausch | Robin Larson | Tamera Lanham | Roger C. Grosse | Jamie Kerr | J. Mueller | S. E. Showk | Oliver Rausch | D. Amodei | Nova Dassarma | Shauna Kravec