龙妈苟活还是凉凉,预测算法哪家准?

2019 年 5 月 11 日 七月在线实验室

转载自超神经HyperAI(ID:hyperAI)

原作者:神经小姐姐


场景描述:通过对美剧「权利的游戏」中的信息分析,从数据的角度去预测了主要角色的生存几率,这种对虚幻故事的研究手法,也将对现实生活中相似的应用案例带来启发。


关键词:贝叶斯推断 文本分析 词性标注 网络理论



这个世界上只有两种人,看「权游」(权利的游戏)的,和不看权游的。

 

你们心心念的权游终于迎来了最终季,狼家史塔克的家训「Winter is coming」终终终终终于是应验了,人类与异鬼的战争一触即发。各个主要角色的生死存亡你猜得到吗?


 这个深刻诠释「凡人皆有一死」的热剧

扑朔迷离的剧情让观众对终局望眼欲穿


难道只能在一集集看完之后,才能知道你们牵挂的二丫会不会幸存,色后又会不会被二丫手刃?

 

面对这份煎熬,总有人按捺不住。比如,热爱代码的程序员们,就用算法分析权游里的故事,预测了角色的生存概率,以及谁最有可能登上铁王座。


有趣的是,不同的算法和团队,预测的结果大相径庭。比如慕尼黑工业大学(TUM)团队的算法,预测最终龙妈登上了铁王座;而另一种算法下,龙妈没能活过寒冬。


另外,还有一种神奇的「算法」是:Men all die.


所以,哪家预测的结果准确?各家都有各家的依据,看看他们都怎么做的。

 

机器学习预测龙妈要活到最后

 

TUM 的学生在计算机科学研讨会上做了一个有趣大胆的尝试:用数据科学和机器学习的方法,去预测权游中角色最后的存活机会。 在「权力的游戏」第八季上映之前,算法就预测出各个角色的命运。

 

 左:生存率排行榜   右:死亡率排行榜

(图片来源:https://got.show/)完整的权游人物清单以及详细预测结果可在线获取


这份结论中,龙妈存活的几率最高( 99% ),她的国王之手小恶魔也有 97% 的存活率。难道是龙妈最后统领了各大家族?而狡猾又善于自保的波隆以 93.5% 位居死亡顺序的首位。


这个结果从哪儿得来?


TUM 团队的分析数据是从《冰与火之歌》的书中,权游的台词里,以及粉丝圈在维基百科上的内容搜集而来。用于预测的信息包括:角色所属的家族,是否已婚,以及他们的盟友等情况。

 

他们提取了数百个角色的特征数据集,梳理了故事中角色的信息。除了诸如性别和地位等数据外,还考虑了元数据信息:比如某人是主要角色还是次要角色,以及他们在维基百科等渠道中被引用的频率。


通过这些数据,利用算法分析,揭示出了关于权游中死亡率的一些趋势,例如男性比女性更危险(男性死亡率 22%, 而女性为 11% )。

 

在预测趋势的同时,为了对每个角色的命运进行预测,团队使用了两个单独的模型:第一种是贝叶斯推断方法,使用 pymc3 封装的 MCMC 方法来训练贝叶斯生存分析模型;第二个涉及机器学习和神经网络,在 Python 的 Keras 框架下进行。

 

铁王座还是死亡,到底谁说了算

他们的工作或许会有些效果。早在 2016 年,在第 6 季播出之前,TUM 同一课程的学生就创建了一个算法,准确预测了囧诺的复活。

利用文本分析:龙妈要狗带?

 
你要相信,有同样好奇心的人,肯定不止一位。


另一位数据科学家 Peter Vesterberg 通过对原著小说的文本分析,去预测最终季的剧情走向。

Peter 认为剧情的走向是人物间的关系所支撑的,通过分析了《冰与火之歌》已经出版的五本书,使用网络理论计算出角色间的相互关系,用可视化的方式呈现出来,综合人物的重要性判断最后的存活几率。

 

他用一个点来代表人物,根据冰火故事中的文本,利用词性标注,相似度度量等方法,定义了角色之间的「接近」程度,越接近和越频繁地出现两个名字,他们的联系就越多。

 

判断一个角色与其他角色的关联性的方法,主要用了四个关键概念:


  • 度中心性——与该节点直接连接的节点占节点总数的比例;

  • 接近中心性——对于一个结点而言,距离其它结点越近,那么它的中心度越高 ;

  • 中介中心性——量化该节点充当其他两个节点之间最短路径的桥梁的次数 ;

  • 特征向量中心性——一个节点的重要性既取决于其相邻节点的数量,也取决于其相邻节点的重要性。

 

通过这些概念的分析,得到关系值的「权重」数字。最终得到一份关于人物关系的图谱,线条的粗细表示了人物联系的紧密程度,最后的结点大小代表了角色的重要性。这份重要性指标也显示了会被作者「除去」的可能。


 

具体的指标排名如下:


四个分析指标的具体排名数值,囧诺( Jon )都是领跑


在这样的分析下,囧诺毫无疑问是最重要的角色,难道这个生于龙家,长于狼家的疑似 RMB 玩家,最终会登上铁王座?重要程度紧随其后的,是智力担当小恶魔和弑君者詹姆。


从网络理论的角度来看,龙妈丹妮莉丝似乎是前期撒币太多,后期估计是金币不够,只是处在关系网的边缘,看来大概率是要凉了。


预测不只是为了娱乐,更是拥有现实意义


对于结果迥异的不同算法,到底哪个更胜一筹,我们不得而知,也许只有在大结局到来时候,才能知晓。但他们使用的方法,都不只是闹着玩,而是拥有实际的利用价值。


TUM 开发的生存几率算法,来自于一个严肃的学习项目。他们设立这项课程的主要的目的,帮助学生将学习如何设计,开发和部署智能计算机系统。 

 

该项目的首席导师 Guy Yachdav 博士说:「虽然预测权力游戏人物生存机会,依赖于从幻想世界中获取的数据,但在现实世界中,使用完全相同的人工智能技术,也会对我们的日常生活产生重大影响。」


 Guy Yachdav 博士在 TED 演讲中介绍

预测算法能够解决现实世界中的问题


毕竟,复联4就是用算法拯救了世界。

奇异博士用穷举法或者说试错法,尝试了 14000605 种可能后,选择了唯一会胜利的那条。



奇异博士的这种精神,用来写代码的话估计也是极好的。




各位同学,花呗还完了吗?

你的芝麻信用多少分了?

花呗额度和信用分是怎么计算出来的?


下面的课程将帮你学习互联网金融的核心

金融风控

进入算法工程师中的高精领域


原价1200元

现价599

今天还有11个额外特惠名额哦


咨询/报名可添加微信客服

julyedukefu_02


速抢!扫它查看详情


我将学会什么?



可以胜任那些职位?


会很难吗?适合什么样的人?


了解Python和统计学基础知识即可

适合对金融风控类感兴趣的同学

还等什么?

↓立刻戳它查看详情↓

或添加

微信客服

julyedukefu_02



他用机器学习减肥20斤!程序员必看,你想不到的机器学习妙用


5招解决拖延症,告别深夜加班,效率提升10倍!


后台回复:“100”   免费领【机器学习面试100题

后台回复:“干货” 免费领【全体系人工智能学习资料

后台回复:“领资料” 免费领【NLP工程师必备干货资料


登录查看更多
1

相关内容

慕尼黑工业大学(Technische Universität München),位于拜仁州(Bayern)首府慕尼黑(München),是德国拜仁州唯一的一所理工类大学。在校生约38000人,是德国最大的理工高校之一。属于德国理工九所(TU9)、精英大学(Eliteuniversitäten),是国际上声名显赫的顶尖德国院校。 校内设有154个专业,核心领域为自然科学、工程科学、医学及生命科学。此外还设有经济学、数学与信息学、体育与健康科学、教育学及建筑学专业。
商业数据分析,39页ppt
专知会员服务
157+阅读 · 2020年6月2日
广东疾控中心《新型冠状病毒感染防护》,65页pdf
专知会员服务
18+阅读 · 2020年1月26日
金融时序预测中的深度学习方法:2005到2019
专知会员服务
165+阅读 · 2019年12月4日
注意力机制介绍,Attention Mechanism
专知会员服务
166+阅读 · 2019年10月13日
推荐系统产品与算法概述 | 深度
AI100
11+阅读 · 2019年6月13日
未来20年(2019—2039)的50个技术预测
全球创新论坛
5+阅读 · 2018年12月16日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
阿里给程序员准备的开源年货,你收到了吗?
前端大全
3+阅读 · 2018年1月23日
各种机器学习的应用场景分别是什么?
AI研习社
4+阅读 · 2017年12月2日
机器学习算法比较
我爱机器学习
4+阅读 · 2016年12月11日
Arxiv
5+阅读 · 2019年4月8日
Arxiv
23+阅读 · 2018年10月24日
Feature Selection Library (MATLAB Toolbox)
Arxiv
7+阅读 · 2018年8月6日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
7+阅读 · 2018年1月30日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
4+阅读 · 2017年10月30日
Arxiv
4+阅读 · 2016年12月29日
VIP会员
相关资讯
推荐系统产品与算法概述 | 深度
AI100
11+阅读 · 2019年6月13日
未来20年(2019—2039)的50个技术预测
全球创新论坛
5+阅读 · 2018年12月16日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
阿里给程序员准备的开源年货,你收到了吗?
前端大全
3+阅读 · 2018年1月23日
各种机器学习的应用场景分别是什么?
AI研习社
4+阅读 · 2017年12月2日
机器学习算法比较
我爱机器学习
4+阅读 · 2016年12月11日
相关论文
Arxiv
5+阅读 · 2019年4月8日
Arxiv
23+阅读 · 2018年10月24日
Feature Selection Library (MATLAB Toolbox)
Arxiv
7+阅读 · 2018年8月6日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
7+阅读 · 2018年1月30日
Arxiv
7+阅读 · 2018年1月24日
Arxiv
4+阅读 · 2017年10月30日
Arxiv
4+阅读 · 2016年12月29日
Top
微信扫码咨询专知VIP会员