论文信息 - Accelerating Inference and Language Model Fusion of Recurrent Neural Network Transducers via End-to-End 4-bit Quantization - 字舞流文

Accelerating Inference and Language Model Fusion of Recurrent Neural Network Transducers via End-to-End 4-bit Quantization

Brian Kingsbury | K. Gopalakrishnan | G. Saon | Chia-Yu Chen | A. Fasoli | Mauricio Serrano | Swagath Venkataramani | Xiaodong Cui