滕放 | 知识图谱在股权投资领域的尝试

2017 年 4 月 13 日 开放知识图谱


本文整理自因果树创始人滕放在杭州金融知识图谱论坛上的演讲。


今天非常感谢大家来到浙大参加这个沙龙。首先我要感谢的是中文信息学会,能够让我们企业有这么一个平台跟大家交流;第二感谢的是浙江大学;最后感谢的是文因互联的鲍总。我们同业者能够聚在一起真的非常难得。我今天讲的是我的视角,跟各位专家不太一样。我们作为创业者,内心深处最大的愿望,是能够把我的企业做得更快、更好。所以今天我给大家分享的视角,是如何用技术来提高我们企业自身的、未来的竞争力。因为在过去大概十几年的经验里,我一直是在科技公司里面,但我对技术的理解是,技术绝对不是企业成功的最重要因素,技术可能占企业成功因素的 40%,剩下 60% 就在于如何利用技术找到相应的业务场景,让技术和业务相结合。你要有一个中间把控技术的进度。所以从这个方向给大家分享一下,我们因果树在过去两年多都做了什么事,以及为什么做这些事。



首先智能投顾是一个非常大的市场,可能比我们想象得都要大。我听到不同的数据,有人说是 5 万亿,我用的 2 万亿美金这个数据(到 2020 年),这是一个非常大的市场。这个市场大到什么程度呢?我认为它可以颠覆现有的一些金融上的理论。本身我也是学金融的,大家都知道非常传统的金融理论里面的 DCF(Discounted Cash Flow),Golden Model,但是这些 Golden Model 都是基于现金流的,而我们现在在尝试一些东西,尤其是对创投企业的估值。比如说我们开始用单用户的价值折现,或者其他方式的折现来估算企业的价值。这种计算方法颠覆了原来传统应用现金流,用 net income 计算企业估值的金融理论,所以它是个非常非常大的创新。


我感到非常幸运。


第一个幸运在于生活在这个时代。不知道大家怎么看待,我的判断是整个国家在经历一场创业。我们的经济模式从以前的出口、投资到消费,在转入一个新的模式,新的模式来自于哪儿,就来自于创业、创新、新的科技、新的商业模式,这些模式一旦被市场验证之后,会被现在大量的企业吸收到体内,成为现有企业的一部分,所以这个是第一个感到很幸运的地方。


第二个幸运的地方在于,我们找到了一个比较好的方法。过去两年中,我们一直试图在用数据的方式解决风险投资市场的信息不对称问题,尝试了各种不同的方法。最终我们认为用数据、用知识图谱来解决这个信息的不对称,包括一些知识的重构,知识的推理,这是解决这个市场,现在的信息不对称的一个的方案。


第三个感到很幸运的就是我最底下的这一句话。我不知道大家怎么理解,因为我们在座的几位同仁,都在做的一件事就是打破信息的不对称。而所有的金融机构都是在想尽办法保持信息不对称。这既是我们的一个机会也是一个挑战,所以我认为未来类似我们这样的企业不是太多,而是太少了。因为每一个金融机构,都需要一个像我们这样的企业为他们提供服务,因为金融机构的本质就是要控制信息,保持信息不对称。



这是一幅图,谈到智能投顾的时候,有非常多 confusion 的地方,我们希望借这一幅图给大家分享一下我们的看法。


这里面我省了一个维度,首先大家知道投资分为股权投资和债权投资。咱们国民社会融资总额里面,95% 都是债权类投资。债权类投资不是我们做的方向,因为债权类投资的思维方式和股权投资完全不一样。简单讲,一个是向下看,一个是向上看。债权投资担心的是你会不会往下走,能不能付本息,你往上怎么走都没有关系,而股权投资在意的是你能不能往上走,所以我们是往上看。


第二个维度是做一级市场还是二级市场。一级市场和二级市场的打法完全不一样,二级市场的信息非常公开,有各种研报、公告、新闻、数据,而一级市场的信息非常闭塞,而且内容也不一样,所以在这里面用的方法完全不一样。


第三个维度是做资金端还是做资本端。因为我看到很多的企业,所谓做智能投顾都是在往资金端走,就是找到那些个体的投资人。我认为这种机会是在大平台上,比如像蚂蚁、京东、百度或者其他的地方,比如券商的大平台。他们有现有的流量、用户,适合做资金端的有投入的产品。而左上角的资产端,就是所谓一级市场资产端,是我们因果树给自己的定位。


我们现在做的这件事怎么样?我认为我们现在做的这件事,内心深处还是被人看不起的阶段。经常会问,你的数据准不准?我经常是花一个小时给人介绍完了我们的产品之后,他还问我,数据源在哪里,到底准不准。但这是一个必经的阶段,所以我希望和更多的企业同仁一起参与这样的会议,让外界慢慢地看到这一场颠覆式创新。


几个思考



在谈论具体的知识图谱之前,先谈谈这几个思考,也是基于创业者的思考。因为我的想法,最主要的还是要让企业能活,并且能够活得好。


第一个思考是做一级市场还是二级市场。这里面核心在于如何验证你的模型,如何验证你的数据。二级市场相对好验证一些,因为可以通过实时报价,实时具体的操作来验证,而一级市场是很难做验证的,这是关于一级市场、二级市场的思考。


第二个思考是做工具还是做交易。这个其实我们之前也有很多尝试,做工具面临的问题是产业链很长,从做数据到交易到完成到投后,流水线非常长。另外一个是做交易,对接投融资双方做交易类型的,这是两种不同的打法。


第三个思考就是做产品还是做项目。现在很多的大数据公司,包括在智能投顾领域,很多是以项目的方式提供服务。它没有具体的产品,只能按照别人的需求来开发一个项目,而这种方式是不能够快速复制的。


第四个就是到底是 2B 还是 2C。这是经常被大家问的一个问题。我认为在智能投顾领域, 2C 的只适合大的平台,而做这种资产端的,比较偏重于 2B。


第五个是要做一个专家系统还是真正的机器学习系统。我们认为,在现阶段专家系统还是必不可少的。因为这里面涉及到如何找到数据的使用场景,而现在的使用场景,很多还是依靠传统的专家来判断的,机器还是远远没有达到能够超越人类的地步。这其实也涉及到我们做这件事情的出发点到底是什么,是要超越人类,还是成为人类的伙伴,成为一个工具。


最后一个就是从短期目标到长期目标。说白了你怎么样去变现,怎么样去平衡你自己。做深度的技术上的研究,是有很大的成本的,而你短期要有很多的现金,要有业务的流量,所以你怎么平衡这个。


知识图谱的价值



关于知识图谱价值,这是我个人的理解。不同于百度或者是谷歌的知识图谱,我们的知识图谱,是针对于一个垂直领域的知识体系的构建。所以从这个层面讲,它可以分成两个阶段。


第一个阶段我认为是 BI(Business Intelligence)的阶段。这个没有什么噱头,过去二三十年大家都在做这件事情。尽管如此,我们认为一级市场做的还是非常不完善,所以要想利用知识图谱做好一级市场的智能投顾,你要做的第一件事,是要把自己变成一个真正的大数据公司,如果不是一家大数据公司,你无法成为一个人工智能的公司。第二步是基于现有的 BI 体系,再叠加上各种机器学习的方法、自然语言的处理、实体的挖掘、知识的挖掘,找到一些突破。我认为比较现实的做法,是找到一些单点上的突破,你可能无法在全面的知识图谱上进行突破,先在一两个点上实现突破,就已经能够非常好的颠覆这个市场。所以我认为知识图谱的价值,是从 BI 到 AI 的提升。


知识图谱的实践


因果树过去两年一直在做知识图谱的工作。这些工作我们分成两个阶段,第一阶段就是知识库搭建和找到数据应用场景。其实这两块是非常非常难的地方,我们对这两块的定位,其实就是基于知识图谱的搜索和分析引擎。这里面要找到数据源,对结构化和非结构化的数据源进行整理和分析。当然最重要的还是要用这些数据去解决用户什么样的问题,这也是所有 2B 企业最大的挑战。我们要深入到用户的应用场景里面,在这个应用场景里面,重塑现有 B 端业务的一些场景,成为它的工具。这是第一阶段。


其实第一阶段,要纯粹用 BI 去做也可以。因为它没有涉及到知识的推理,只是用现有的专家体系,用自动化的方式,更快地找到信息、搜索信息、分析信息,对企业进行支持。这一块说白了,不用知识图谱也可以做。但是要让机器超越人,你必须得有一个知识的框架,来让机器去学习。所以这时候我们才开始把那种知识装入到一个框架里头,让机器不断地去学习,不断地去挖掘。这里面其实涉及到,不仅仅是自然语言处理的应用,还有很多机器学习、深度学习上的应用,比如说我们除了看企业自身的一些描述性的文字,还会看具体企业的一些信息,比如你的财务数据怎么样。这是第二阶段。



说到这儿,我跟大家再分享一下因果树过去两年所做的比较有意义的工作,看跟大家有没有进一步的合作的可能。


第一块我们在平台上收集了大概 50 万家创业企业的数据。这些数据分成大概四个类型。第一个类型是企业的基本数据,包括供应商、股东的数据,企业的描述性数据,企业的标签,这是比较基本的数据。第二块数据是我们通过跟运营商合作,把企业,尤其是互联网企业在网上的一些行为,不管是 APP 端的还是移动端的数据进行整理和分析。第三块数据是企业各种知识产权的数据,这个对判断科技型企业是非常有意义的。第四块数据是泛舆情的信息,比如说招聘、搜索热度、工资水平、人员流动,通过你的信息和一些数据,我们来判断企业的好与不好。


在维度上把数据分成了三个维度,第一个维度是对行业的划分,因为行业划分是一个大难题,我们把整个创投领域 TMT 分解成了 800 个细分子行业。第二个维度是对产业链的梳理。如果说行业的分类是横向的,产业链的分类就是纵向的。我们大概定义了几十个产业链的分类,所有的公司都可以按这两个维度进行统计。第三个维度是从公司到产品层面的数据梳理,很多情况下公司会有多个产品,尤其是大中型公司,他们会有很多的产品,他所在的行业和所在的产业链都非常不一样。我们把各种信息,按照这些维度进行统计,再用模型来判断企业好与不好。


最后,我们做知识图谱的目标也非常简单,就想做两件事,第一件事是判断一家企业是不是好的企业,尤其是创新型的企业,现在全国每天有一万五千家创业企业出现,判断这些企业,靠人力是无法完全覆盖的。第二个就是判断企业之间的相关性,到底哪个企业应该被哪家投资机构投,到底哪家企业应该被上市公司进行并购,到底哪家企业可以之间有相互合作的基础。这是我们做整个知识图谱的一个大的脉络。谢谢大家。






OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

登录查看更多
0

相关内容

因果树 http://www.innotree.cn/?fr=zh是人工智能股权投融资服务平台,依托平台大数据、通过人工智能技术和创新金融服务。 因果树·图灵 http://www.innotree.cn/turing_index.html?fr=zh
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
234+阅读 · 2020年4月18日
德勤:2020技术趋势报告,120页pdf
专知会员服务
187+阅读 · 2020年3月31日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
161+阅读 · 2020年2月27日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
102+阅读 · 2019年11月4日
为什么说深耕AI领域绕不开知识图谱?
人工智能学家
33+阅读 · 2019年5月30日
IDG资本杨飞:从价值投资谈2017中国现象
IDG资本
4+阅读 · 2017年12月22日
刘志明 | 知识图谱及金融相关
开放知识图谱
13+阅读 · 2017年12月18日
【知识图谱】肖仰华 | 基于知识图谱的用户理解
产业智能官
16+阅读 · 2017年10月6日
肖仰华 | 基于知识图谱的用户理解
开放知识图谱
13+阅读 · 2017年9月29日
天使湾叶东东:创业死法清单 这7个最致命
铅笔道
5+阅读 · 2017年7月21日
Arxiv
23+阅读 · 2018年10月1日
Arxiv
6+阅读 · 2018年7月29日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关资讯
为什么说深耕AI领域绕不开知识图谱?
人工智能学家
33+阅读 · 2019年5月30日
IDG资本杨飞:从价值投资谈2017中国现象
IDG资本
4+阅读 · 2017年12月22日
刘志明 | 知识图谱及金融相关
开放知识图谱
13+阅读 · 2017年12月18日
【知识图谱】肖仰华 | 基于知识图谱的用户理解
产业智能官
16+阅读 · 2017年10月6日
肖仰华 | 基于知识图谱的用户理解
开放知识图谱
13+阅读 · 2017年9月29日
天使湾叶东东:创业死法清单 这7个最致命
铅笔道
5+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员