密码学家百年来无法辨认,500年前古怪手稿的加密希伯来语被AI算法破译

2018 年 2 月 27 日 大数据文摘 文摘菌

大数据文摘作品

编译:Niki、丁慧、龙牧雪


几个世纪以来,伏尼契手稿(Voynich manuscript)一直是本人类无法理解的书,但现在我们终于可以读懂它了——这要归功于我们在手稿写成的500年后发明的机器智能。



伏尼契手稿通常被称为“世界上最神秘的书籍”,它是一份可追溯到15世纪初的中世纪文本。它由复杂、未知语言书写的神秘文本组成,并附有奇怪的图表和插图,包括植物、裸体人像和天文符号。它甚至有折叠页面,非常漂亮。


然而,没人知道手稿上面到底写了什么。这些文字的意义,被铭刻在古代的牛皮纸上,几百年来一直没有人能理解。


这份手稿一直被炼金术士和皇帝所拥有,直到1912年,一位名叫Wilfrid Voynich的波兰书商偶然发现了这份手稿,于是手稿便以Voynich的名字命名。



手稿有些页面已经丢失,剩余约240页。1969年,手稿由Hans P. Kraus捐赠给耶鲁大学Beinecke稀有书籍和手稿图书馆(即本文所有图片来源)。


大量密码学家和语言学家都试图揭开手稿的秘密,包括第一次世界大战和第二次世界大战期间的美国和英国密码破译者,但其页面中包含的晦涩难懂的代码、植物、符号和沐浴中的女性的奇怪图画没人能解释得通。它已成为密码学和语言学上的一个世界性难题。



手稿的意义和起源的奥秘激发了大众的想象力,使手稿成为小说和猜测的主题。在过去的一百年中提出的许多假设都没有得到验证,这其中包括半随机加密机制生成手稿;回文构词法;或是书面语中的元音被移除等等。有些理论甚至说这部手稿是一个精心制作的骗局。


现在,多亏了加拿大的计算机科学家,我们取得了新突破。


阿尔伯塔大学的研究人员使用人工智能来解码古代手稿的各个部分,使用一种称为算法解密的技术来揭示隐藏在这本奇怪书籍背后的潜在加密语言。



“伏尼契手稿是用一种未知语言编写的,这是一种最具挑战性的解密问题。”阿尔伯塔大学研究团队在他们的论文中解释说。


研究成果发表于2017年ACL大会

后台对话框内回复“手稿”即可下载


通过在《世界人权宣言》的380种不同译文中测试算法,并用AI寻找模式,识别一篇文章中的语言时,AI系统能够达到97%的准确率。


接下来,他们将AI集中应用在伏尼契手稿上。此前,多数观点认为手稿可能是用阿拉伯语写成的。但是,AI否定了这一看法。


AI的结论是,手稿是用加密的希伯来语写成的



如何解密?


研究员们采用了先前研究中所提出的一个假设——手稿是由字母表所创建,也就是说,文本中的单词字母按照字母顺序表的先后顺序重新排列(例如,变位词GIZMODO被读成DGIMOOZ)。在已经知道这些文字来源于希伯来文的前提下,研究员们设计了一种能够通过回文构词法还原希伯来语单词的算法


“结果显示,超过80%的单词都可以在希伯来文字典中查到,但我们还不知道这些单词组合在一起是否真的代表了某种含义。”计算机语言学家Kondrak说。



由于没有找到任何希伯来学者可以帮助验证他们的发现,研究人员最终使用谷歌翻译来把手稿译成英语。他们承认此过程中涉及一些猜测,但总体上手稿中的图片似乎与AI解读出的文本相匹配。


在手稿的“草药”章节的开头部分,包含几种植物的图画,出现了许多植物学相关术语,包括农民、光线、空气和火焰。



巧合?也许不是。


这本世界上最神秘的书又是如何开头的?


根据AI的说法,


她向牧师、家中的人、我和人们提出了建议(She made recommendations to the priest, man of the house and me and people)


是伏尼契手稿的第一句话。


“它提出了一个语法上的句子,你可以解释它,”Kondrak说。“这是一个奇怪的句子,但它绝对有道理。”


也许这本书的内容是有关草药植物的建议?研究团队并不能确定。他们表示,需要古希伯来历史学家的协助来进一步解码。


“无论如何,对噪音输入进行算法解密的结果只能是起点,之后需要熟悉特定语言和历史时期的学者参与研究。”



这种破译长达240页手稿的方式其实并不多见,但结果所得到的语句的确都讲得通。重要的是,研究员们并没有说他们破译了整个伏尼契手稿,而是发现了手稿所使用的文字(希伯来语)和字母被重新排列的加密机制(按字母顺序排列)。整部手稿的翻译要等研究古希伯来语的历史学家们去研究才能知晓。


不管怎样,AI在人文与社会科学学科中的应用结果仍令人兴奋。该团队正计划应用这一新算法去破译其他古老的手稿,凸显人工智能解决几个世纪来一直困扰人类的种种难题的潜力。


素材来源:


https://gizmodo.com/artificial-intelligence-may-have-cracked-freaky-600-yea-1822519232?utm_campaign=Revue%20newsletter&utm_medium=Newsletter&utm_source=The%20Wild%20Week%20in%20AI


https://www.sciencealert.com/ai-may-have-finally-decoded-the-bizarre-mysterious-voynich-manuscript


https://transacl.org/ojs/index.php/tacl/article/view/821


后台对话框内回复 “手稿”即可下载手稿研究论文。


【今日机器学习概念】

Have a Great Definition

志愿者介绍

登录查看更多
6

相关内容

书籍在狭义上的理解是带有文字和图像的纸张的集合。广义的书则是一切传播信息的媒体。
【微众银行】联邦学习白皮书_v2.0,48页pdf,
专知会员服务
163+阅读 · 2020年4月26日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
基于Web页面验证码机制漏洞的检测
FreeBuf
7+阅读 · 2019年3月15日
翟天临博士所发论文涉嫌抄袭(附各路证据)
2018年你可以知道的AI搞笑段子
李开复
8+阅读 · 2019年1月4日
浅谈外泌体抑制剂——鞘磷脂酶抑制剂GW4869
外泌体之家
8+阅读 · 2018年12月19日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
十分钟读懂python的“数据库”语言
Python技术博文
3+阅读 · 2017年11月9日
Generating Fact Checking Explanations
Arxiv
9+阅读 · 2020年4月13日
Arxiv
14+阅读 · 2020年1月27日
Arxiv
3+阅读 · 2018年6月19日
Arxiv
6+阅读 · 2018年3月27日
VIP会员
相关资讯
基于Web页面验证码机制漏洞的检测
FreeBuf
7+阅读 · 2019年3月15日
翟天临博士所发论文涉嫌抄袭(附各路证据)
2018年你可以知道的AI搞笑段子
李开复
8+阅读 · 2019年1月4日
浅谈外泌体抑制剂——鞘磷脂酶抑制剂GW4869
外泌体之家
8+阅读 · 2018年12月19日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
十分钟读懂python的“数据库”语言
Python技术博文
3+阅读 · 2017年11月9日
Top
微信扫码咨询专知VIP会员