简介: 使用LLM(large language model, 大语言模型)来构建智能体的核心部件是一个非常酷的概念。验证此概念的一些应用,比如:AutoGPT、GPT-Engineer以及BabyAGI等,都给出了令人鼓舞的结果。LLM的潜力不会局限于文本重写优化或者写小说、发言稿和程序,它也可以用于构建一个强大的、解决一般问题的框架。
简介: 在强化学习中,探索与利用是一个非常重要的主题。我们希望智能体可以尽可能快地找到最佳解决方案。而同时,在没有经过足够探索的情况所获取到的策略可能很糟糕。它很有可能是一个局部最优方案或者是一个失败的方案。以最大回报率为优化目标的现代强化学习算法可以非常高效地实施“利用”这一过程,但是,如何进行探索一直是一个开放讨论的话题。
简介: 据图片来生成文本的任务(比如图片描述/视觉问答等)已经被研究了好些年。传统解决这类问题的系统通常会将一个对象检测网络用作一个视觉特征编码器,而后再利用一个解码器将特征向量解码为文字。由于当前此类研究数量太大,在这里我仅关注这其中的一类解决视觉语言任务的方法。
简介: 2022 年ICRL 论文结果公布,根据我爬到的数据,最终投稿的共有2658篇论文,接收1095篇论文,接收率高达41.2%。(不得不怀疑一下灌水质量)
简介: DQN论文是 DeepMind 的研究人员在2013年发表的。一作作者Volodymyr Mnih博士毕业于多伦多大学,对人工智能领域特别是强化学习有杰出贡献。DQN的论文首次使用卷机神经网络直接处理游戏画面来进行Atari游戏的控制。
简介: 简介在监督学习中,高质量的标签是任务性能的保障。然而,给大量的数据样本打标签的代价是非常昂贵的。由此,机器学习中诞生了一些新的范式,专门用于解决在标签非常缺乏的情况下的学习问题。在这些范式中,半监督学习是一个可选方案(半监督学习仅需依赖很少部分打过标签的数据+大量无标签数据)。
简介: 对比学习(Contrastive Learning)的主要思想是让相似样本表征间的距离相近,而差别很大样本表征间的距离较远。对比学习在监督学习和非监督学习中都可以使用,在许多的计算机视觉和自然语言处理相关的任务中都有很好的性能表现。
简介: 使用LLM(large language model, 大语言模型)来构建智能体的核心部件是一个非常酷的概念。验证此概念的一些应用,比如:AutoGPT、GPT-Engineer以及BabyAGI等,都给出了令人鼓舞的结果。LLM的潜力不会局限于文本重写优化或者写小说、发言稿和程序,它也可以用于构建一个强大的、解决一般问题的框架。
简介: 在强化学习中,探索与利用是一个非常重要的主题。我们希望智能体可以尽可能快地找到最佳解决方案。而同时,在没有经过足够探索的情况所获取到的策略可能很糟糕。它很有可能是一个局部最优方案或者是一个失败的方案。以最大回报率为优化目标的现代强化学习算法可以非常高效地实施“利用”这一过程,但是,如何进行探索一直是一个开放讨论的话题。
简介: 据图片来生成文本的任务(比如图片描述/视觉问答等)已经被研究了好些年。传统解决这类问题的系统通常会将一个对象检测网络用作一个视觉特征编码器,而后再利用一个解码器将特征向量解码为文字。由于当前此类研究数量太大,在这里我仅关注这其中的一类解决视觉语言任务的方法。
简介: 2022 年ICRL 论文结果公布,根据我爬到的数据,最终投稿的共有2658篇论文,接收1095篇论文,接收率高达41.2%。(不得不怀疑一下灌水质量)
简介: DQN论文是 DeepMind 的研究人员在2013年发表的。一作作者Volodymyr Mnih博士毕业于多伦多大学,对人工智能领域特别是强化学习有杰出贡献。DQN的论文首次使用卷机神经网络直接处理游戏画面来进行Atari游戏的控制。
简介: 简介在监督学习中,高质量的标签是任务性能的保障。然而,给大量的数据样本打标签的代价是非常昂贵的。由此,机器学习中诞生了一些新的范式,专门用于解决在标签非常缺乏的情况下的学习问题。在这些范式中,半监督学习是一个可选方案(半监督学习仅需依赖很少部分打过标签的数据+大量无标签数据)。
简介: 对比学习(Contrastive Learning)的主要思想是让相似样本表征间的距离相近,而差别很大样本表征间的距离较远。对比学习在监督学习和非监督学习中都可以使用,在许多的计算机视觉和自然语言处理相关的任务中都有很好的性能表现。