Paper is cheap, show me the explanation.
cover

Parameter-exploring policy gradients

本文介绍了一种解决部分可观测马尔可夫问题的一种无模型(model-free)强化学习方法(PGPE)。和一般策略梯度方法不同的是,此方法通过在参数空间中直接进行采样来得到梯度值的估计。PEPG可以降低梯度值估计的方差,让学习过程更加稳定、快速,并且在策略不可导的情况下也可以使用。

2021年10月8日
cover

Zero-Shot Text-to-Image Generation

在文本生成图片的任务中,人们一直致力于在确定的小数据集下寻找更好的网络结构,然而一些假设通常会引入复杂的模型结构或者繁琐的损失函数。本文提出一种简单的自回归策略,利用transformer将文本和图片同等建模,即使在zero shot情况下也可以达到SOTA效果。GPT3证明了在文本上使用大规模参数和大规模数据对模型带来的提高,本文使用120亿参数的模型在2.5亿数据上进行了训练,证明了大规模模型在文本到图像生成任务上也有很好的效果。

2021年9月7日
cover

策略梯度算法专题

在本文中,我们深入了解一下策略梯度算法、工作原理以及一些近年来新提出的改进算法,包含:朴素(vanilla)策略梯度、actor-critic、off-policy 策略梯度、A3C、A2C、DPG、DDPG、D4PG、MADDPG、TRPO、PPO、ACER、ACTKR、SAC、TD3以及SVPG。

2021年8月23日
cover

SquirRL: Automating Attack Analysis on Blockchain Incentive Mechanisms with Deep Reinforcement Learning

本文发表于2021年的NDSS,由CMU和北大的两位学生共同一作。这篇文章对于区块链的运行环境进行了建模,并在此基础上使用强化学习分析了区块链激励机制中的攻击问题。

2021年8月5日
cover

PipeDream: generalized pipeline parallelism for DNN training

使用流水线并行的DNN训练方法可以大大减少通信开销所带来的瓶颈问题。本文提出的Pipedream可以自动对于DNN模型进行自动分割,并且结合了batch内并行优化方法来摊还通信开销。相比于当前最好的方法(论文发表前)来说,PipeDream可以在很多模型及不同硬件上取得最高5.3倍的训练加速。

2021年7月21日
cover

On the Convergence of Adam and Beyond

现在训练深度学习网络的主要方法就是使用SGD优化器及其变体。一些SGD的变体比如:Adam, AdaDelta, Nadam等优化器利用历史梯度更新指数滑动平均的平方根信息。根据经验来看,在许多应用中,这些优化器无法让模型收敛到最优解。本文的分析指出,导致该问题的一个原因就是这些优化器中使用了历史梯度的指数滑动平均信息。文中通过一个简单的例子展示了Adam优化器是如何收敛到了一个非常差的结果的。为了解决此问题,文章提出了一个新的改进的优化器算法*AMSGrad*。该优化器不仅可以解决前面提到的收敛性问题,而且根据实验来看,还可以在一定程度上改善Adam的性能。

2021年7月7日
cover

PowerSGD: Practical Low-Rank Gradient Compression for Distributed Optimization

在分布式机器学习中,如果模型非常大,网络传输效率就会成为瓶颈,那么训练时如何降低网络通信开销就成了一个重要问题。本文研究了一种高效的有损压缩的方法,可以在很大程度上改善网络开销,并且可以保持甚至超过原有的准确率。

2021年7月5日
cover

Deep neural networks are easily fooled: High confidence predictions for unrecognizable images

随着DNN(深度神经网络)的发展,DNN在图像分类任务上的表现足以达到人类的水平。那么DNN对于一张图片的理解和人类是一样的吗?最近的一项研究表明,DNN和人类在对于图片的理解方面有所不同,研究人员可以通过对图片进行一些肉眼无法察觉的改变(比如改变一些像素点的值),就可以让DNN分类器将图片分类为不相关的类别。这对于一些应用来讲问题非常大,比如对于安全性要求较高的图像识别领域(自动驾驶、人脸识别等)。本文对于此类问题,进行了研究,结果表明:可以很容易生成一些对于人类无法识别的图片,但是最好的DNN分类器却可以将其以非常高的置信度将其分类为一个特定类别。

2021年7月5日
cover

YOLO9000: Better, Faster, Stronger

Yolo 于2015年出现之后,当时就成为了目标检测方面的新星,不但检测准确度提高了,而且在实时性方面的优势更大。但是Yolo一代还存在一些缺点。对此,Yolo的创建者决定提出一个新的方案来在保持原有准确度的情况下解决上述两个问题,作者将其命名为Yolo2。在此yolo2基础上,作者还提出了另外一个模型 Yolo9000,它可以用来实时检测超过9000种目标。Yolo9000甚至可以标出在检测数据集中没有看到过的目标类别(在分类数据集中学习过),该模型在ImageNet的检测任务中给出了一个漂亮的结果。

2021年7月5日
cover

You Only Look Once: Unified, Real-Time Object Detection

本文介绍目标检测模型YOLO的工作原理。这篇文章发出之后已经有了非常多的改进方法,YOLO也出了后续的版本:YOLOv2, YOLOv3等等,后面我们有时间再介绍。理解了YOLO的最初版本之后,应该会更加容易理解其后续版本。 YOLO(You Only Look Once)是一个目标检测网络。目标检测任务的主要工作就是确定对象在一个图片中的位置并且确认该对象的分类。先前的目标检测方法比如R-CNN及其变体使用了类似数据管道(pipline)的方式。这些方法将任务分解为几个步骤,然后分别解决每一个步骤的问题。这种方法的缺点是运行速度慢,并且由于每个部分都是独立的,这些不同的部分很难一起进行优化。YOLO将所有这些步骤都融合到了一个神经网络模型中,大大加快了运行速度。

2021年7月5日
cover

Broken Metre: Attacking Resource Metering in EVM

本文发表于NDSS 2020,针对智能合约(比如以太坊)提出了一种新的拒绝服务(DoS)攻击方法(资源耗尽型)。

2021年7月5日
cover

Proximal Policy Optimization Algorithms

此文提出了著名的PPO算法,由谷歌 Open AI 于17年发布,对于深度强化学习领域产生了巨大的影响。在此之前,Natural Policy Gradient 算法解决了策略梯度算法的收敛性问题,但是此算法需要计算二阶导矩阵,在实际使用中性能受限,扩展性差。现有许多研究研究工作都是围绕如何通过近似二阶优化算法来降低算法复杂度。PPO算法采用了一个不太一样的方法,它没有引入一个强约束,而是将约束项作为目标函数中的一个惩罚项。这样就可以使用一阶优化算法来进行模型优化,大大降低了算法复杂度。

2021年7月5日
cover

Invertible Residual Networks

本文展示了如何将ResNet结构改变为可逆的结构,这种变更后的结构在分类、密度估计以及内容生成方面都适用。通常,强制网络结构可逆需要对网络进行维度划分并且需要限制网络结构。本文提出的方法仅需要在训练期间添加一个简单的规范化步骤,这在现有的机器学习框架中很容易实现。可逆的ResNets网络可以和现有的最好的图片分类器以及基于流的生成模型相媲美。这在之前,任何单个网络都是无法做到的。

2021年7月5日
cover

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

这篇论文提出了一个新的模型:Sentence-BERT (SBERT),它在预训练的BERT基础之上,使用*孪生网络(siamese network)*和*三元组网络(triplet network)*,对模型进行了微调。这样模型就可以生成句子的嵌入表示(sentence embedding),这些句子的嵌入表示可以直接用来计算句子间的余弦相似度。这样在前面提到的寻找最相似句子的任务中,就无需对每个句子对进行推理,大大减少了计算时间(65小时 -> 5秒),并且不会降低准确率。

2021年7月5日
cover

Detecting and Characterizing Lateral Phishing at Scale

论文使用来自92家公司的1.13亿封邮件,针对横向钓鱼攻击做了大规模分析。横向钓鱼攻击是指:攻击者利用攻破的企业账户向其他人发送钓鱼邮件(即钓鱼邮件的横向传播),利用被劫持者的信任关系获益。本文构建了一个检测横向钓鱼邮件的分类器,检测数数以百计的横向钓鱼邮件,误报为4/1000,000。基于检测到的攻击邮件,结合一些事件的分析,文章进一步 (1) 量化了横向钓鱼的规模;(2) 识别攻击者确定邮件主题和受害者的策略;(3)展示两种攻击者的攻击手法;(4)并且对攻击成功的概率进行了评估。总结下来,文章刻画了企业级攻击者模型和当今企业受钓鱼攻击的现状。

2021年7月5日
cover

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

本文提出了一种语言表征模型BERT(Bidirectional Encoder Representations from Transformers)。它使用了一个深度、双向模型,用无标签的文本数据作为输入,来预训练一个文本的表征。BERT模型在模型的每一层中都使用了文本的上下文信息(双向)。在预训练的BERT模型后面可以接一个全连接层进行特定任务的微调训练。实验结果显示,在11个NLP任务上,BERT都可以达到现有的最高水平(18年)。

2021年7月5日
cover

NoDoze: Combatting Threat Alert Fatigue with Automated Provenance Triage

现在大型企业逐渐开始依赖于威胁检测软件来发现可疑行为。这些软件会产生许多告警,网络空间安全分析人会去分析这些告警是否是真正的攻击。不幸的是,在实际使用中,需要处理的告警数量远远多于分析人员的数量。这就导致了一个威胁警报疲劳或者信息过载问题的产生,从而可能会造成漏掉真正的攻击告警。 本文提出的NoDoze联合使用了告警相关的上下文以及历史信息来解决上述问题。NoDoze首先生成一个告警事件的因果依赖图;然后给图中每一个边打一个分,代表这个边的一个异常情况,这个分数和相应边所关联的事件出现的频率有关。然后NoDoze使用一个新的扩散算法,将这个分数通沿着相邻的边进行传播,这最终会生成一个聚合的分数以用来进行分类。在最后的实验结果中,该方法将误报降低了84%。

2021年7月5日
cover

FaceNet: A unified embedding for face recognition and clustering

本文中提出了一个非常著名的概念:triplet loss。使用该loss函数,作者提出了一个新的系统FaceNet,它可以学习一个从人脸图像到一个小的欧几里得空间的映射,并且在这个新的空间中像点之间的距离可以反映原本人脸图片之间的相似性。这类似于词嵌入(Word Embedding)的方法,只不过本文中实现的是人脸图片的嵌入。文中使用了卷积神经网络来直接优化Embedding,而没有使用之前的一些论文中常用的瓶颈层。

2021年7月5日
cover

Learning a similarity metric discriminatively, with application to face verification

这篇论文提出了一个可以用来训练一个用于衡量数据间的相似度模型的方法。它可以用于一些进行识别或者验证的应用程序,并且该方法可以用于训练样本种类非常多、单个类别样本数量非常少的情况。在验证类型的应用中,即使样本类别在原来训练数据中没有出现过也可以使用。

2021年7月5日
cover

Signature Verification Using A "Siamese" Time Delay Neural Network

这篇论文描述了一个基于人工神经网络的签名验证算法。这个签名通过触摸板进行数据的收集。论文提出的网络结构被作者称为孪生时延神经网络。它之所以被称为孪生神经网络,是因为它由两个一摸一样的神经网络组成。在训练过程中,模型会去学习输入签名间的的相似性。模型被用作验证的时候,只有孪生网络的一半被用做前向推理。这半个网络的输出被当作原始签名的特征表示。验证过程就是将需要被验证的签名的特征表示向量与原始存储的特征表示进行比较,从而判断签名是否一致。

2021年7月5日