登陆

ICLR 2019最佳论文揭晓!NLP深度学习、神经网络紧缩夺冠 | 技能头条

admin 2019-05-10 298人围观 ,发现0个评论

收拾 | Linstansy

责编 | Jane

出品 | AI科技大本营(id:rgznai100)

【导语】ICLR 是深度学习范畴的尖端会议,素有深度学习顶会 “无冕之王” 之称。本年的 ICLR 大会将于5月6日到5月9日在美国新奥尔良市举办,大会选用 OpenReview 的揭露双盲评定机制,共接纳了 1578 篇论文:其间 oral 论文 24 篇 (约占 1.5%),poster 论文共 476 篇 (占30.2%)。在这些选用的论文中,深度学习、强化学习和生成对立网络 GANs 是最抢手的三大研讨方向。此前,AI 科技大本营现已对 ICLR2019 的论文投稿及接ICLR 2019最佳论文揭晓!NLP深度学习、神经网络紧缩夺冠 | 技能头条纳状况与高分论文进行了报导和解读,我们可以再回忆一下。

今日, ICLR2019 发布了最佳论文,有两篇论文获得了最佳论文,在此对获奖论文作者及团队表明祝贺!一篇是《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks》,在 RNN 网络中集成树结构,提出一种神经元排序战略,由蒙特利尔大学、微软研讨院共同研讨宣布;另一篇是 MIT CSAIL 的研讨成果《The Lottery Ticket Hypothesis: Finding Spare, Trainable Neural Networks》。下面就为我们带来这两篇最佳论文的解读。

论文一

论文地址:

https://openreview.net/forum?id=B1l6qiR5F7

摘要

自然言语可视为是一种小单元 (如短语) 嵌套在大单元 (如字句) 中的分层结构。当完毕一个大单元时,内部所嵌正常的大冒险套的小单元也将随之封闭。虽然规范的 LSTM 结构答应不同的神经元盯梢不一起刻维度信息,但它关于层级结构建模中的各组成没有清晰的倾向。针对这个问题,本文提出神经元排序战略来增加一个概括偏置量 (inducive bias),当主输入向量和忘记门结构保证给定的神经网络更新时,后续跟从的一切神经元也将随之更新。这种集成树结构的新颖循环神经网络 ON-LSTM (ordered neurons LSTM) ICLR 2019最佳论文揭晓!NLP深度学习、神经网络紧缩夺冠 | 技能头条在四种不同的 NLP 使命:言语建模、无监督解析、方针句法评价和逻辑推理上都取得了杰出的体现。

研讨动机

将树结构集成到神经网络模型用于 NLP 使命首要有如下原因:

根据以上动机,该研讨提出一种有序化神经元办法 (结构示意图如下图1),经过概括偏置来强化每个神经元中的信息贮存:大的、高档的神经元贮存长时间信息,这些信息经过很多的过程保存;小的、初级的神经元贮存短期信息,这些信息可以快速忘记。此外,一种新式的激活函数 cumulative softmaxICLR 2019最佳论文揭晓!NLP深度学习、神经网络紧缩夺冠 | 技能头条 (cumax) 用于自动为神经元分配长/短期所贮存的信息,有效地防止高/初级神经元的固定区分问题。

总的来说,本文的研讨集成树结构到 LSTM 网络中,并经过概括偏置和 cumax 函数,构建一种新颖的 ON-LSTM 模型,在多项 NLP 使命中都取得了不错的功能体现。

图1 组成解析树结构与 ON-LSTM 模型躲藏状况的对应联络

试验成果

在四种 NLP 使命中评价 ON-LSTM 模型的功能,详细如下。

图2 Penn Treebank 言语建模使命验证机和测验集的单模型困惑度

图3 full WSJ10 和 WSJ test 数据集上的句法组成剖析评价成果

图4 ON-LSTM 和 LSTM 模型在每个测验样本的整体精度体现

图5 在逻辑短序列数据上练习的模型的测验精度

论文二

论文地址:

https://openreview.net/forum?id=rJl-b3RcF7

摘要

神经网络的剪枝技能可以在不影响模型精确功能的状况下,削减网络的练习参数量,多达90%以上,在下降核算存储空间的一起进步模型的推理功能。但是,从前的研讨经历标明,经过剪枝技能得到的稀少网络结构在初期是很难练习的,这好像也有利于练习功能的提高。一个规范的剪枝技能可以自然地发现子网络结构,这些子网络的初始化可以协助网络更有效地练习。

因而,本研讨提出一种 lottery ticket hypothesis:关于那些包括子网络 (winning ticket) 结构的密布、随机初始化前馈网络,当独自练习这些子网络时,经过类似的练习迭代ICLR 2019最佳论文揭晓!NLP深度学习、神经网络紧缩夺冠 | 技能头条次数可以取得与原始网络适当的测验功能。而这些子网络也验证了初始的假定:即具有初始权重的衔接网络可以更有效地练习。

根据这些成果,本文提出一种算法来确认子网络结构,并经过一系列的试验来支撑 lottery ticket hypothesis 以及这些偶尔初始化的重要性。试验成果标明,在 MNIST 和 CIFAR-10 数据集上,子网络的规划一直比几种全衔接结构和卷积神经网络小10%-20%。当规划超越这个规模时,子网络可以比原始网络有更快的学习速度和更好的测验精度体现。

研讨动机与办法

本文剖析验证了存在较小的子网络结构,在适当的测验精度体现前提下,一开始就练习网络可以到达与较大子网络相同,乃至更快的练习速度。而根据此,本文提出 Lottery Ticket Hypothesis:将一个杂乱网络的一切参数作为一个奖赏池,存在一个参数组合所构成的子网络 (用 winning ticket 表明),独自练习该网络可以到达与原始杂乱网络适当的测验精度。

关于该子网络结构的确认,首要是经过练习一个网络并剪枝其间最小权重来确认子网络,而其他未剪枝部分衔接构成自网络的结构。详细过程如下:

总的来说,本研讨的首要奉献如下:

使用

本文的研讨验证了的确存在比原始网络更快速、功能更佳的子网络,这种结构可以给未来的研讨供给许多方向:

(本文为 AI科技大本营收拾文章,转载请微信联络1092722531)

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。
ICLR 2019最佳论文揭晓!NLP深度学习、神经网络紧缩夺冠 | 技能头条
请关注微信公众号
微信二维码
不容错过
Powered By Z-BlogPHP