标签搜索 - PGPE - 字舞流文

标签： PGPE

关注

Parameter-exploring policy gradients

本文介绍了一种解决部分可观测马尔可夫问题的一种无模型（model-free）强化学习方法（PGPE）。和一般策略梯度方法不同的是，此方法通过在参数空间中直接进行采样来得到梯度值的估计。PEPG可以降低梯度值估计的方差，让学习过程更加稳定、快速，并且在策略不可导的情况下也可以使用。

本文介绍了一种解决部分可观测马尔可夫问题的一种无模型（model-free）强化学习方法（PGPE）。和一般策略梯度方法不同的是，此方法通过在参数空间中直接进行采样来得到梯度值的估计。PEPG可以降低梯度值估计的方差，让学习过程更加稳定、快速，并且在策略不可导的情况下也可以使用。

人工智能强化学习 PGPE

爱吃猫的鱼

4878

0

2021年10月8日

热门主题

深度学习区块链批标准化 FAW Batch-Normalization 机器学习基础自私挖矿机器学习人工智能比特币