论文信息 - MixCE: Training Autoregressive Language Models by Mixing Forward and Reverse Cross-Entropies - 字舞流文

MixCE: Training Autoregressive Language Models by Mixing Forward and Reverse Cross-Entropies

Mark Dredze | Mohit Bansal | Ozan Irsoy | D. Rosenberg | Shiyue Zhang | Shijie Wu | Steven Lu