深度好奇提出文档理解新方法:面向对象的神经编程丨数据工匠简报

2017 年 10 月 9 日 Datartisan数据工匠

点击上方

Datartisan数据工匠

可以订阅哦!

page
1

深度好奇提出文档理解新方法:面向对象的神经编程

深度好奇(DeeplyCurious.ai)和清华大学的研究者近日在 arXiv 上发布的论文提出了一种可用于解析文档的框架 OONP。机器之心在本文中对论文中的 OONP 概览部分进行了编译介绍,能为你提供对该框架的大概理解。有关该框架的更多详情和实验内容请参阅原论文。


论文链接:https://arxiv.org/abs/1709.08853


我们提出了一个可用于对特定领域的文档进行语义解析的框架——面向对象的神经编程(OONP:Object-oriented Neural Programming)。基本而言,OONP 可以读取文档并将其解析成预先设计的面向对象的数据结构(在本论文中称为本体(ontology)),该数据结构可反映文档的特定领域的语义。OONP 解析器将语义解析建模成了一种决策过程:一个基于神经网络的阅读器(Reader)按顺序浏览文档,在此过程中,它会构建和更新一种中间本体,从而总结出对其已覆盖的文档的部分理解。OONP 支持丰富的用于组合本体的操作系列(符号的和可微分的均可)和用于表征状态和文档的许多种类的形式(符号的和可微分的均可)。OONP 解析器可以使用不同形式和强度的监督进行训练,包括监督学习(SL)、强化学习(RL)和两者的混合。我们在合成的和真实世界的文档解析任务上进行了实验,结果表明 OONP 仅需使用适量的训练数据就能学会处理相当复杂的本体。

扫码阅读原文


page

2

H1B签证LCA过程影响因素分析

大家好,本期媛子小分队的精品案例同样是改编自人才计划第一期学员的毕业作品,作者是厦门大学文武双全人见人爱花见花开的洪祺琳主席。此童鞋已经远赴美帝威斯康辛麦迪逊分校攻读数据科学的硕士,所以本精品案例的选题跟在美留学的同学息息相关,敬请观赏。


近年来中国留学生逐渐占据美国国际学生的半壁江山,光荣毕业后,除了立马回到祖国的怀抱中的童鞋,选择留在美国继续打拼踌躇满志的华夏学子,不管是为了在美国定居还是想工作几年积累经验,最终能有多少实现“美国梦”?对于大多数留学生来说,实现“美国梦”就是获得H1B签证,而其中最关键的一步是LCA过程,那么什么是H1B签证?什么是LCA过程?我们该怎样才能更有把握通过LCA过程,从而获得H1B签证呢?


本案例的主人公叫做小苹果,赴美留学数年后以优异的成绩毕业,毕业的同时面临着一个艰难的抉择:是继续留在美帝还是回到祖国的怀抱当中呢?经过一番。゚ヽ(゚´Д`)ノ゚。的思考,最终决定留在美帝,与公司达成共识后获得OPT身份。

扫码阅读原文


page

3

用 Go 打造区块链(1)基础原型

区块链是二十一世纪最具革命性的技术之一,它正在不断成熟,它的诸多潜力正在逐步实现中。本质上来看,区块链只不过是一个分布式的数据库。之所以区块链独特,是因为它并不是一个私有数据库,而是一个公开的数据库,即,每一个使用它的人拥有这个数据库的全部或者至少一部分。任何一个新的数据记录,只能在多数数据库持有者(维护者)的多数同意之后被加入数据库。正因如此,区块链使得加密货币以及智能合约成为可能。


在这个系列文章中,我们将打造一个简化版本的加密货币,它将基于一个简化版本的区块链实现。


区块(Block)

让我们先从区块开始。在区块链里,价值信息存储在区块之中。比如,比特币的区块存储交易记录,而交易记录是任何加密货币的核心。除此之外,区块里还包含有技术信息,比如它的版本号,当前的时间戳,以及上一个区块的哈希(Hash)。


在这篇文章中,我们所实现的并不是像比特币那样完整的区块链,而是一个简化版本的区块链,它只含有最基本的核心信息。差不多是这样:

扫码阅读原文



更多课程和文章尽在微信号

「datartisan数据工匠」


登录查看更多
0

相关内容

深度好奇致力于探索理解人类语言的算法,创造服务于行业的人工智能。通过和行业专家深度合作,将领域逻辑与前沿技术无缝结合,用智能技术将专业人士从繁琐、重复的工作中解放出来。
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
85+阅读 · 2020年6月28日
【2020新书】监督机器学习,156页pdf,剑桥大学出版社
专知会员服务
150+阅读 · 2020年6月27日
Python导论,476页pdf,现代Python计算
专知会员服务
254+阅读 · 2020年5月17日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
115+阅读 · 2020年5月10日
【经典书】数据结构与算法C++,第二版,738页pdf
专知会员服务
165+阅读 · 2020年3月27日
【电子书】C++ Primer Plus 第6版,附PDF
专知会员服务
83+阅读 · 2019年11月25日
面向对象:等你来撩
前端大全
5+阅读 · 2019年7月26日
神经机器阅读理解最新综述:方法和趋势
PaperWeekly
15+阅读 · 2019年7月25日
论文浅尝 | 基于知识库的神经网络问题生成方法
开放知识图谱
19+阅读 · 2019年6月21日
【入门】数据分析六部曲
36大数据
17+阅读 · 2017年12月6日
如何用Python从海量文本抽取主题?
AI研习社
7+阅读 · 2017年7月6日
Arxiv
3+阅读 · 2019年9月5日
Arxiv
3+阅读 · 2018年10月11日
Arxiv
12+阅读 · 2018年1月20日
VIP会员
相关VIP内容
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
85+阅读 · 2020年6月28日
【2020新书】监督机器学习,156页pdf,剑桥大学出版社
专知会员服务
150+阅读 · 2020年6月27日
Python导论,476页pdf,现代Python计算
专知会员服务
254+阅读 · 2020年5月17日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
115+阅读 · 2020年5月10日
【经典书】数据结构与算法C++,第二版,738页pdf
专知会员服务
165+阅读 · 2020年3月27日
【电子书】C++ Primer Plus 第6版,附PDF
专知会员服务
83+阅读 · 2019年11月25日
相关资讯
面向对象:等你来撩
前端大全
5+阅读 · 2019年7月26日
神经机器阅读理解最新综述:方法和趋势
PaperWeekly
15+阅读 · 2019年7月25日
论文浅尝 | 基于知识库的神经网络问题生成方法
开放知识图谱
19+阅读 · 2019年6月21日
【入门】数据分析六部曲
36大数据
17+阅读 · 2017年12月6日
如何用Python从海量文本抽取主题?
AI研习社
7+阅读 · 2017年7月6日
Top
微信扫码咨询专知VIP会员