标签:

强化学习之一二

在这篇文章中,我们从强化学习的基本概念开始,而后介绍一些经典的算法,带大家快速浏览强化学习世界。希望这篇文章帮助新手快速开始精彩的强化学习之旅。【注意】 这篇文章比较长哦。

在这篇文章中,我们从强化学习的基本概念开始,而后介绍一些经典的算法,带大家快速浏览强化学习世界。希望这篇文章帮助新手快速开始精彩的强化学习之旅。【注意】 这篇文章比较长哦。

Zero-Shot Text-to-Image Generation

在文本生成图片的任务中,人们一直致力于在确定的小数据集下寻找更好的网络结构,然而一些假设通常会引入复杂的模型结构或者繁琐的损失函数。本文提出一种简单的自回归策略,利用transformer将文本和图片同等建模,即使在zero shot情况下也可以达到SOTA效果。GPT3证明了在文本上使用大规模参数和大规模数据对模型带来的提高,本文使用120亿参数的模型在2.5亿数据上进行了训练,证明了大规模模型在文本到图像生成任务上也有很好的效果。

在文本生成图片的任务中,人们一直致力于在确定的小数据集下寻找更好的网络结构,然而一些假设通常会引入复杂的模型结构或者繁琐的损失函数。本文提出一种简单的自回归策略,利用transformer将文本和图片同等建模,即使在zero shot情况下也可以达到SOTA效果。GPT3证明了在文本上使用大规模参数和大规模数据对模型带来的提高,本文使用120亿参数的模型在2.5亿数据上进行了训练,证明了大规模模型在文本到图像生成任务上也有很好的效果。

PowerSGD: Practical Low-Rank Gradient Compression for Distributed Optimization

在分布式机器学习中,如果模型非常大,网络传输效率就会成为瓶颈,那么训练时如何降低网络通信开销就成了一个重要问题。本文研究了一种高效的有损压缩的方法,可以在很大程度上改善网络开销,并且可以保持甚至超过原有的准确率。

在分布式机器学习中,如果模型非常大,网络传输效率就会成为瓶颈,那么训练时如何降低网络通信开销就成了一个重要问题。本文研究了一种高效的有损压缩的方法,可以在很大程度上改善网络开销,并且可以保持甚至超过原有的准确率。

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

这篇论文提出了一个新的模型:Sentence-BERT (SBERT),它在预训练的BERT基础之上,使用*孪生网络(siamese network)*和*三元组网络(triplet network)*,对模型进行了微调。这样模型就可以生成句子的嵌入表示(sentence embedding),这些句子的嵌入表示可以直接用来计算句子间的余弦相似度。这样在前面提到的寻找最相似句子的任务中,就无需对每个句子对进行推理,大大减少了计算时间(65小时 -> 5秒),并且不会降低准确率。

这篇论文提出了一个新的模型:Sentence-BERT (SBERT),它在预训练的BERT基础之上,使用*孪生网络(siamese network)*和*三元组网络(triplet network)*,对模型进行了微调。这样模型就可以生成句子的嵌入表示(sentence embedding),这些句子的嵌入表示可以直接用来计算句子间的余弦相似度。这样在前面提到的寻找最相似句子的任务中,就无需对每个句子对进行推理,大大减少了计算时间(65小时 -> 5秒),并且不会降低准确率。

FaceNet: A unified embedding for face recognition and clustering

本文中提出了一个非常著名的概念:triplet loss。使用该loss函数,作者提出了一个新的系统FaceNet,它可以学习一个从人脸图像到一个小的欧几里得空间的映射,并且在这个新的空间中像点之间的距离可以反映原本人脸图片之间的相似性。这类似于词嵌入(Word Embedding)的方法,只不过本文中实现的是人脸图片的嵌入。文中使用了卷积神经网络来直接优化Embedding,而没有使用之前的一些论文中常用的瓶颈层。

本文中提出了一个非常著名的概念:triplet loss。使用该loss函数,作者提出了一个新的系统FaceNet,它可以学习一个从人脸图像到一个小的欧几里得空间的映射,并且在这个新的空间中像点之间的距离可以反映原本人脸图片之间的相似性。这类似于词嵌入(Word Embedding)的方法,只不过本文中实现的是人脸图片的嵌入。文中使用了卷积神经网络来直接优化Embedding,而没有使用之前的一些论文中常用的瓶颈层。

Learning a similarity metric discriminatively, with application to face verification

这篇论文提出了一个可以用来训练一个用于衡量数据间的相似度模型的方法。它可以用于一些进行识别或者验证的应用程序,并且该方法可以用于训练样本种类非常多、单个类别样本数量非常少的情况。在验证类型的应用中,即使样本类别在原来训练数据中没有出现过也可以使用。

这篇论文提出了一个可以用来训练一个用于衡量数据间的相似度模型的方法。它可以用于一些进行识别或者验证的应用程序,并且该方法可以用于训练样本种类非常多、单个类别样本数量非常少的情况。在验证类型的应用中,即使样本类别在原来训练数据中没有出现过也可以使用。

Signature Verification Using A "Siamese" Time Delay Neural Network

这篇论文描述了一个基于人工神经网络的签名验证算法。这个签名通过触摸板进行数据的收集。论文提出的网络结构被作者称为孪生时延神经网络。它之所以被称为孪生神经网络,是因为它由两个一摸一样的神经网络组成。在训练过程中,模型会去学习输入签名间的的相似性。模型被用作验证的时候,只有孪生网络的一半被用做前向推理。这半个网络的输出被当作原始签名的特征表示。验证过程就是将需要被验证的签名的特征表示向量与原始存储的特征表示进行比较,从而判断签名是否一致。

这篇论文描述了一个基于人工神经网络的签名验证算法。这个签名通过触摸板进行数据的收集。论文提出的网络结构被作者称为孪生时延神经网络。它之所以被称为孪生神经网络,是因为它由两个一摸一样的神经网络组成。在训练过程中,模型会去学习输入签名间的的相似性。模型被用作验证的时候,只有孪生网络的一半被用做前向推理。这半个网络的输出被当作原始签名的特征表示。验证过程就是将需要被验证的签名的特征表示向量与原始存储的特征表示进行比较,从而判断签名是否一致。

High-Dimensional Continuous Control Using Generalized Advantage Estimation

强化学习中常用的策略梯度算法有两个主要的挑战: 1. 算法需要大量样本支撑:以降低训练过程中的样本方差大的问题; 2. 稳定训练困难:在实际训练过程中,我们经常可以看到模型得到的奖励值波动非常大。 对于第一个挑战,本文通过设计的值函数,可以以少量偏差的损失为代价来换取方差的降低。对于第二个问题,本文提出对于策略函数和值函数应用可信域优化的方法来稳定训练过程。

强化学习中常用的策略梯度算法有两个主要的挑战: 1. 算法需要大量样本支撑:以降低训练过程中的样本方差大的问题; 2. 稳定训练困难:在实际训练过程中,我们经常可以看到模型得到的奖励值波动非常大。 对于第一个挑战,本文通过设计的值函数,可以以少量偏差的损失为代价来换取方差的降低。对于第二个问题,本文提出对于策略函数和值函数应用可信域优化的方法来稳定训练过程。

有限样本学习(二):主动学习

这是有限样本学习的第二部分内容。这次,我们允许使用有限的预算来进行人工打标签的工作。由于预算有限,我们必须非常谨慎地去选取待标记样本。

这是有限样本学习的第二部分内容。这次,我们允许使用有限的预算来进行人工打标签的工作。由于预算有限,我们必须非常谨慎地去选取待标记样本。

常用激活函数及其梯度可视化

本文给出了pytorch里面支持的所有二十几种激活函数的可视化作图。

本文给出了pytorch里面支持的所有二十几种激活函数的可视化作图。

有限样本学习(一):半监督学习

简介在监督学习中,高质量的标签是任务性能的保障。然而,给大量的数据样本打标签的代价是非常昂贵的。由此,机器学习中诞生了一些新的范式,专门用于解决在标签非常缺乏的情况下的学习问题。在这些范式中,半监督学习是一个可选方案(半监督学习仅需依赖很少部分打过标签的数据+大量无标签数据)。

简介在监督学习中,高质量的标签是任务性能的保障。然而,给大量的数据样本打标签的代价是非常昂贵的。由此,机器学习中诞生了一些新的范式,专门用于解决在标签非常缺乏的情况下的学习问题。在这些范式中,半监督学习是一个可选方案(半监督学习仅需依赖很少部分打过标签的数据+大量无标签数据)。

Parameter-exploring policy gradients

本文介绍了一种解决部分可观测马尔可夫问题的一种无模型(model-free)强化学习方法(PGPE)。和一般策略梯度方法不同的是,此方法通过在参数空间中直接进行采样来得到梯度值的估计。PEPG可以降低梯度值估计的方差,让学习过程更加稳定、快速,并且在策略不可导的情况下也可以使用。

本文介绍了一种解决部分可观测马尔可夫问题的一种无模型(model-free)强化学习方法(PGPE)。和一般策略梯度方法不同的是,此方法通过在参数空间中直接进行采样来得到梯度值的估计。PEPG可以降低梯度值估计的方差,让学习过程更加稳定、快速,并且在策略不可导的情况下也可以使用。

深度强化学习中的探索策略

在强化学习中,探索与利用是一个非常重要的主题。我们希望智能体可以尽可能快地找到最佳解决方案。而同时,在没有经过足够探索的情况所获取到的策略可能很糟糕。它很有可能是一个局部最优方案或者是一个失败的方案。以最大回报率为优化目标的现代强化学习算法可以非常高效地实施“利用”这一过程,但是,如何进行探索一直是一个开放讨论的话题。

在强化学习中,探索与利用是一个非常重要的主题。我们希望智能体可以尽可能快地找到最佳解决方案。而同时,在没有经过足够探索的情况所获取到的策略可能很糟糕。它很有可能是一个局部最优方案或者是一个失败的方案。以最大回报率为优化目标的现代强化学习算法可以非常高效地实施“利用”这一过程,但是,如何进行探索一直是一个开放讨论的话题。