8篇高质量论文已为你打包完毕 | 本周值得读 #41

2017 年 7 月 15 日 PaperWeekly arXiv打卡小组
「本周值得读」是 PaperWeekly 的优质文章集合地。在这里,来自 NLP、CV、DL 等方向的学习达人,各自用精炼妙语推荐当下最新的高质量文章。 
这是第 41 篇「本周值得读」


#ACL2017#


A Deep Network with Visual Text Composition Behavior


本文提出 Attention Gated Transformation (AGT) network,网络核心是多层转换层,每一层由 Attention layer(控制从原始文本中获取信息)、Transform Gate(由Attention 控制底层信息和原始文本信息如何流向高层)组成。


每一层的结果:f(W, concat(last_layer, current_layer_attention)) * T + last_layer* (1 - T),其中 T 是 Transform Gate 输出。通过试验,整体效果不错。 


本文分析了 attention 每一层的值、选中词长度(文中视 attention 值 0.95 以上为选中)等的分布,展示了 AGT 获取信息、处理信息的过程。


论文链接:https://arxiv.org/abs/1707.01555


推荐人:罗玄,北京邮电大学(PaperWeekly arXiv 打卡小组)



#Text Classification#

#ACL2017#


Learning to Skim Text


RNN(Recurrent Neural Network)在多个自然语言处理的任务中取得了最好的结果,例如文本分类(document classification),机器翻译(machine translation),问答系统(question answering)。然而,绝大多数 RNN 必须一字一句地阅读整个文本,使它在处理长文本的时候会很慢。例如,使用 RNN 阅读整本书然后回答有关的问题是极其困难的。


这篇论文提出了一种阅读模型可以跳过不相关的文本信息。底层模型使用一个 RNN 来根据已读文本决定跳过多少个单词。文章也使用了标准的策略梯度(policy gradient)训练模型来得到离散的跳读动作。在模型评价部分,这篇文章测试了 4 个不同的任务,包括数字预测(number prediction),情绪分析(sentiment analysis),新闻文章分类(news articles classification)和自动问答(automatic QA),比起标准顺序 LSTM,LSTM with jumping 快了 6 倍,同时可以保持相同甚至更好的准确率。


这篇文章的想法很有趣,模仿人类的跳读(skiping)和略读(partial reading),因为跳读距离的学习是一个离散的过程,所以文章使用了强化学习算法(reinforce algorithm)来估计跳读策略。

论文链接:https://arxiv.org/pdf/1704.06877.pdf


推荐人:

姚文林,Texas A&M University(PaperWeekly arXiv 打卡小组)



#Atrous Convolution#


Rethinking Atrous Convolution for Semantic Image Segmentation


本文是所谓的 DeepLab-v3,来自 Google DeepLab 团队。从题目就能看出是继续在 atrous convolution(或者 dilated convolution)上做文章。主要地,作者使用了两种策略来试验 multiple atrous rates:一种是“串联的结构”(atrous convolution in cascade);另一种则是“并联的结构”(atrous convolution in parallel),以此来 handle 语义分割中的 mutliple scale 问题。


其中并联的结构主要是基于先前 DeepLab-v2 提出的 ASPP(Atrous Spatial Pyramid Pooling)结构,并且受 PSPNet 和  ParseNet 的启发,进一步融合了 image-level global feature,提升了精度。文章以 ResNet 作为 base network,使用了 Batch Normalization 和诸多 trick,在没有使用 CRF 后处理的情况下能在 PASCAL VOC2012 上拿到第二名的好成绩。


另外一个值得称道的地方是,文章作者分享了详细的工程最佳实践(best practice),让人十分受益。比如说作者发现 Batch Normalization Layer 对于训练很有必要(先前的 DeepLab-v2 没有 BN layer),并且使用了 bootstrapping 的方法来着重训练那些标注较少的样本等。


论文链接:https://arxiv.org/abs/1706.05587v1


推荐人:黄河,中国科学院大学(PaperWeekly arXiv 志愿者)


#综述#


Text Summarization Techniques: A Brief Survey


一篇关于文本摘要的综述小文章。

论文链接:https://arxiv.org/abs/1707.02268


推荐人:大俊,PaperWeekly 首席客服



#表示学习#


Efficient Vector Representation for Documents through Corruption


本文提出一种高效文档表示学习框架 Document Vector through Corruption(Doc2VecC),Doc2VecC 直接使用文档中词向量的平均值做为文档表示,在学习时引入正则项保证文档向量能够体现文档的语意。Doc2VecC 主要原理是文档向量表示文档全局信息,细节信息使用局部上下文补全。 


Doc2VecC 的主要优点是:1. 模型的复杂度与文档集大小无关,只取决于词的数量;2. 效率十分高(使用取样的方式,加速训练);3. regularization 依赖于数据集,这样抑制了在数据集中没有代表性的词,突出了数据集中区分度高的词;4. 文档向量是词向量的均值,生成效率相当高;5. 试验效果很好,在 IMDB 情感分析、词向量分析、文档分类等几个试验上,结果优于 Word2Vec, Word2Vec+IDF, Word2Vec + AVG, Doc2Vec 等方法,在语义关联试验上,也取得了相当不错的结果。


论文链接:https://arxiv.org/abs/1707.02377


代码链接:

https://github.com/mchen24/iclr2017


推荐人:罗玄,北京邮电大学(PaperWeekly arXiv 打卡小组)



#综述#


A Brief Survey of Text Mining: Classification, Clustering and Extraction Techniques


一篇关于文本分类,聚类和抽取的综述。


论文链接:https://arxiv.org/abs/1707.02919


推荐人:大俊,PaperWeekly 首席客服



#NLG#


Controlling Linguistic Style Aspects in Neural Language Generation


本文研究的点在于控制文本生成时的 style,将多种风格定义为参数进行训练和学习,从实验结果来看生成的内容比较流畅。这里的 style 可能包括是否专业,是否主观,是否满足一定长度等。本文的二作是 Yoav Goldberg。


论文链接:https://arxiv.org/abs/1707.02633


推荐人:大俊,PaperWeekly 首席客服



#code2doc#

#doc2code#


A parallel corpus of Python functions and documentation strings for automated code documentation and code generation


两个有趣的任务 code2doc 和 doc2code,本文给出了一个平行数据集和一个数据预处理函数。baseline 是基本的 NMT 框架。


论文链接:https://arxiv.org/abs/1707.02275


代码和数据地址:

https://github.com/EdinburghNLP/code-docstring-corpus


推荐人:大俊,PaperWeekly 首席客服


✎✎✎


「本周值得读」栏目的内容来自 PaperWeekly arXiv 志愿者小组推荐,如果您也是 arXiv 爱好者,愿意一起来丰富 PaperWeekly 的推荐内容,并且培养良好的阅读习惯,就请加入我们吧。请添加下面的微信号,并注明「志愿者+学校+硕士生/博士生+研究方向」,一起来为 AI 领域学术的发展贡献自己的一份力量。


关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

登录查看更多
3

相关内容

【ICML2020-西电】用于语言生成的递归层次主题引导RNN
专知会员服务
21+阅读 · 2020年6月30日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
六篇 CIKM 2019 必读的【图神经网络(GNN)】长文论文
专知会员服务
37+阅读 · 2019年11月3日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
ICLR 2020 高质量强化学习论文汇总
极市平台
12+阅读 · 2019年11月11日
本周NLP、CV、机器学习论文精选推荐
PaperWeekly
8+阅读 · 2018年12月21日
论文 | 15篇近期值得读的AI论文
黑龙江大学自然语言处理实验室
16+阅读 · 2018年2月12日
春节囤货清单 | 15篇近期值得读的AI论文
PaperWeekly
5+阅读 · 2018年2月8日
本周值得读:13 份最新开源「Paper + Code」
PaperWeekly
9+阅读 · 2018年1月19日
本周不容错过的的9篇NLP论文 | PaperDaily #21
PaperWeekly
22+阅读 · 2017年12月1日
大神们最近都在读这些论文 | 本周值得读 #44
PaperWeekly
7+阅读 · 2017年8月12日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
Arxiv
3+阅读 · 2018年5月28日
Arxiv
4+阅读 · 2016年9月20日
VIP会员
相关资讯
ICLR 2020 高质量强化学习论文汇总
极市平台
12+阅读 · 2019年11月11日
本周NLP、CV、机器学习论文精选推荐
PaperWeekly
8+阅读 · 2018年12月21日
论文 | 15篇近期值得读的AI论文
黑龙江大学自然语言处理实验室
16+阅读 · 2018年2月12日
春节囤货清单 | 15篇近期值得读的AI论文
PaperWeekly
5+阅读 · 2018年2月8日
本周值得读:13 份最新开源「Paper + Code」
PaperWeekly
9+阅读 · 2018年1月19日
本周不容错过的的9篇NLP论文 | PaperDaily #21
PaperWeekly
22+阅读 · 2017年12月1日
大神们最近都在读这些论文 | 本周值得读 #44
PaperWeekly
7+阅读 · 2017年8月12日
Top
微信扫码咨询专知VIP会员