Huizhen Yu

发表

Convergence Results for Some Temporal Difference Methods Based on Least Squares

Dimitri P. Bertsekas, Huizhen Yu, D. Bertsekas, 2009, IEEE Transactions on Automatic Control.

Convergence of Least Squares Temporal Difference Methods Under General Conditions

Huizhen Yu, Huizhen Yu, 2010, ICML.

Distributed asynchronous policy iteration in dynamic programming

Dimitri P. Bertsekas, Huizhen Yu, D. Bertsekas, 2010, 2010 48th Annual Allerton Conference on Communication, Control, and Computing (Allerton).

Discretized Approximations for POMDP with Average Cost pdf

Dimitri P. Bertsekas, Huizhen Yu, D. Bertsekas, 2004, UAI.

Least Squares Temporal Difference Methods: An Analysis under General Conditions

Huizhen Yu, Huizhen Yu, 2012, SIAM J. Control. Optim..

A Mixed Value and Policy Iteration Method for Stochastic Control with Universally Measurable Policies

Dimitri P. Bertsekas, Huizhen Yu, D. Bertsekas, 2013, Math. Oper. Res..

Weak Convergence Properties of Constrained Emphatic Temporal-difference Learning with Constant and Slowly Diminishing Stepsize

Huizhen Yu, Huizhen Yu, 2015, J. Mach. Learn. Res..

On Convergence of Emphatic Temporal-Difference Learning

Huizhen Yu, Huizhen Yu, 2015, COLT.

A Function Approximation Approach to Estimation of Policy Gradient for POMDP with Structured Policies pdf

Huizhen Yu, Huizhen Yu, 2005, UAI.

Error Bounds for Approximations from Projected Linear Equations

Dimitri P. Bertsekas, Huizhen Yu, D. Bertsekas, 2010, Math. Oper. Res..

On Boundedness of Q-Learning Iterates for Stochastic Shortest Path Problems

Dimitri P. Bertsekas, Huizhen Yu, D. Bertsekas, 2013, Math. Oper. Res..

On Convergence of some Gradient-based Temporal-Differences Algorithms for Off-Policy Learning pdf

Huizhen Yu, Huizhen Yu, 2017, ArXiv.

Markov Random Fields

Huizhen Yu, Huizhen Yu U.H, L. Sucar, 2006, Encyclopedia of Social Network Analysis and Mining.

Basis function adaptation methods for cost approximation in MDP

Dimitri P. Bertsekas, Huizhen Yu, D. Bertsekas, 2009, 2009 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning.

Stochastic Shortest Path Problems Under Weak Conditions

Dimitri P. Bertsekas, Huizhen Yu, D. Bertsekas, 2013 .

Some Simulation Results for Emphatic Temporal-Difference Learning Algorithms pdf

Huizhen Yu, 2016, ArXiv.

Q-learning and enhanced policy iteration in discounted dynamic programming

Dimitri P. Bertsekas, Huizhen Yu, D. Bertsekas, 2010, 49th IEEE Conference on Decision and Control (CDC).

Approximate solution methods for POMDP and POSMDP

Huizhen Yu, 2006 .

Emphatic Temporal-Difference Learning pdf

Martha White, Richard S. Sutton, Huizhen Yu, 2015, ArXiv.

On Generalized Bellman Equations and Temporal-Difference Learning pdf

Richard S. Sutton, Huizhen Yu, Ashique Rupam Mahmood, 2017, Canadian Conference on AI.

On the Minimum Pair Approach for Average Cost Markov Decision Processes with Countable Discrete Action Spaces and Strictly Unbounded Costs

Huizhen Yu, 2020, SIAM J. Control. Optim..

On Convergence of Value Iteration for a Class of Total Cost Markov Decision Processes

Huizhen Yu, Huizhen Yu, 2014, SIAM J. Control. Optim..

New error bounds for approximations from projected linear equations

Dimitri P. Bertsekas, Huizhen Yu, D. Bertsekas, 2008, 2008 46th Annual Allerton Conference on Communication, Control, and Computing.

Q-learning and policy iteration algorithms for stochastic shortest path problems

Dimitri P. Bertsekas, Huizhen Yu, D. Bertsekas, 2012, Annals of Operations Research.

Average Cost Optimality Inequality for Markov Decision Processes with Borel Spaces and Universally Measurable Policies

Huizhen Yu, 2020, SIAM J. Control. Optim..

Multi-step Off-policy Learning Without Importance Sampling Ratios pdf

Richard S. Sutton, Huizhen Yu, Ashique Rupam Mahmood, 2017, ArXiv.

A Unifying Polyhedral Approximation Framework for Convex Optimization

Dimitri P. Bertsekas, Huizhen Yu, D. Bertsekas, 2011, SIAM J. Optim..

On Near Optimality of the Set of Finite-State Controllers for Average Cost POMDP

Dimitri P. Bertsekas, Huizhen Yu, D. Bertsekas, 2008, Math. Oper. Res..

An Efficient Method for Large Margin Parameter

Juho Rousu, Huizhen Yu, Tietojenkäsittelytieteen laitos, 2008 .

Combining Configurational and Statistical Approaches in Image Retrieval

W. Eric L. Grimson, Huizhen Yu, 2001, IEEE Pacific Rim Conference on Multimedia.

Two geometric input transformation methods for fast online reinforcement learning with neural nets pdf

Richard S. Sutton, Huizhen Yu, Sina Ghiassian, 2018, ArXiv.

Q-learning and enhanced policy iteration in discounted dynamic programming

Dimitri P. Bertsekas, Huizhen Yu, 2010, CDC.

On Linear Programming for Constrained and Unconstrained Average-Cost Markov Decision Processes with Countable Action Spaces and Strictly Unbounded Costs

Huizhen Yu, Huizhen Yu, 2019, Math. Oper. Res..

Average-Cost Optimality Results for Borel-Space Markov Decision Processes with Universally Measurable Policies

Huizhen Yu, Huizhen Yu, 2021, 2104.00181.