Jian Qian

发表

Exploration Bonus for Regret Minimization in Undiscounted Discrete and Continuous Markov Decision Processes pdf

Alessandro Lazaric, Matteo Pirotta, Ronan Fruit, 2018, ArXiv.

Importance Resampling for Off-policy Prediction

Martha White, Daniel Graves, Matthew Schlegel, 2019, NeurIPS.

Robust learning under clean-label attack

Avrim Blum, Steve Hanneke, Han Shao, 2021, COLT.