实战 ICO 诈骗鉴别系统,如何辨别有价值的数字货币

2018 年 3 月 16 日 七月在线实验室

作者:Shuqing Bian等

论文:IcoRating: A Deep-Learning System for Scam ICO Identification

地址:https://arxiv.org/pdf/1803.03670.pdf

编译 :机器之心 ( ID:almosthuman2014 )


日,香侬科技创始人、斯坦福大学博士李纪为联合美国加州大学圣塔芭芭拉分校、斯坦福大学共同提出了一种基于深度学习的加密数字货币 ICO 诈骗鉴别系统 IcoRating。这种新方法评估了市面上绝大部分加密货币的生命周期、价值变化与其 ICO 信息(包括白皮书、github 库、创始人信息)之间的关联,去预测并实现了很高的准确率。


引言

加密货币(如 BTC、ETH、NEO 等)正吸引着越来越多人的关注。与中心化电子货币和中心化银行系统相反,大多数数字代币不需要任何授权。这些去中心化系统通过区块链运转,区块链是一个开放、持续增长的分布式账本。加密货币的市场资本化在过去的三年中取得了显著增长,如图 1 所示。根据 CoinMarketCap.com 提供的数据,加密货币日最高交易量接近 2017 年纽约证券交易所的日均交易量。

因其去中心化的本质,加密货币众筹不需要满足风险投资的必要条件,而是经过 ICO。在 ICO 中,投资者用法定货币(如美元、人民币)或其他加密货币(BTC、ETH)来获得众筹的加密货币。ICO 后,这些众筹的加密货币成为具备货币功能的货币单元。新型加密货币发行前一般会先准备一个白皮书,详细介绍这个币的商业、技术和财政细节。如图 2 所示,ICO 项目的数量从 2013 年 7 月到 2017 年 1 月稳定增长,而 2017 年突飞猛进。

图 1: 市场资本化 v.s. 时间

图 2:新 ICO 项目的数量 v.s. 时间

尽管 ICO 项目可以提供公平的投资机会,众筹的便捷性给肆无忌惮的企业创造了使用 ICO 进行「拉高出货」的机会。也就是说 ICO 的发起人抬高了众筹加密货币的价格(「俗称拉盘」),然后迅速出售加密货币来获利(「俗称砸盘」)。此外,加密货币的去中心化本质对政府监管带来了极大的挑战。根据 Engadget 的数据,2017 年,902 个基于众筹的数字货币中 46% 都失败了。图 3 和图 4 展示了一个更严重的问题。图 3 和图 4 中 x 轴上每一个间隔(bucket)表示价格改变范围,y 轴上对应的值表示 ICO 项目的百分比。可以看到的,4.56% 现有 ICO 项目在发行半年后都遭受了价格下跌,下跌程度超过令人发指的 99.9%,一年后该比例甚至上升到了 6.89%。大约 29% 的项目在半年后价格下降超过 80%,一年后这一比例上升到了 39.6%。虽然说每一个价格骤跌的 ICO 项目都是诈骗是不确切的,但构建一个可靠的 ICO 信用评级系统在 ICO 之前对数字货币进行评估是必要且紧迫的。

图 3: ICO 项目百分比 vs 半年后价格变化

图 4:ICO 项目百分比 vs 一年后价格变化

本论文提出 IcoRating,一种基于机器学习的 ICO 评级系统。通过分析 2251 个 ICO 项目,研究者关联了数字货币的生命周期和价格变化与不同级别的 ICO 信息,包括白皮书、创始团队、GitHub 库、网站等。通过整合不同种类的信息,该模型能够以 0.83 的准确率和 0.80 的 F1 分数预测一个 ICO 项目能够在 ICO 半年以后依然存活。

IcoRating 是一个基于机器学习的系统。与人类评级系统相比,IcoRating 有两大强项:(1)客观性:机器学习模型包含更少的先验知识,可以从数据中学习因果关系,这与需要大量人类专家的人类评级系统相反,且人类专家不可避免会引入错误。(2)不会被肆无忌惮的人随意篡改:该信用评级结果是机器学习模型通过黑箱训练得到的输出。该过程涉及极少的人为操作。

希望这个工作可以鼓励大家更多地分析和评估 ICO 项目的质量,并且可以潜在地帮助投资者识别哪些是 ICO 项目诈骗。

本论文其余部分的结构如下:第二部分简要概述加密货币、区块链和 ICO。第三部分介绍了 ICO 项目数据集的构建过程,并且提供了一些基本的数据分析。第四章介绍了论文提出的机器学习模型,第五部分是简短总结。

加密货币、区块链和 ICO

加密货币

加密货币是「一种数字资产,旨在作为交换媒介,使用加密技术来保护其交易。」大多数加密货币使用去中心化控制。第一个去中心化的加密货币是比特币(简称 BTC)(Nakamoto, 2008),由一个或一群不明身份的人用 Satoshi Nakamoto(中本聪)的名字于 2009 年创建。自 BTC 出现后,多种加密货币被创造出来,最著名的包括 Ethereum、Ripple、EOS 和 NEO。

区块链

加密货币的交易由区块链进行验证。人们可以将区块链视为分布式账本,它不断增长并永久记录两方之间的所有交易。每条记录叫作一个块,包含链接到前一个块、时间戳和交易数据的加密哈希指针。账本以分布形式被所有参与者拥有,且记录只能在改变所有后续网络块的情况下得到更改。交易被广播给网络中的所有节点。区块链使用多种时间戳方案,例如工作量证明或股权证明。区块链概念消除了数据集中储存的风险:它没有中心故障点,数据对每个参与者都是透明的。

ICO

ICO 是以加密货币为中心的众筹融资手段。在 ICO 中,众筹加密货币(主要以代币形式)被转移给投资者,以换取法定货币或其他加密货币。当 ICO 的融资目标达到时,这些代币就成为具备货币功能的货币单元,可用于交易货物或者其他加密货币。

ICO 为早期项目提供众筹机会,以逃避风险投资家、银行和证券交易所的规定。它们还提供了超越风险投资或私募股权投资的投资机会,二者是早期投资机会的主导。另一方面,由于缺乏监管,ICO 给投资者带来了重大风险。不同的国家对 ICO 和加密货币有不同的规定。例如,中华人民共和国政府禁止所有 ICO,而美国证监会(SEC)则表示它有权对 ICO 应用联邦证券法,而委内瑞拉政府则推出了自己的加密货币 petromoneda。

数据集构建、处理和分析

研究者收集了 2251 个 ICO 项目的信息,包括白皮书、网站信息、ICO 时的 GitHub 库,以及创始团队。我们从多个提供商处获取数据,提供商包括 CryptoCompare、CoinMarketCap 和 CoinCheckup。

LDA

研究者在收集到的白皮书上运行了一个潜在狄利克雷分布(LDA)模型(Blei et al., 2003)。LDA 是一个生成统计模型,解释了具备基于词共现的词丛(即「topic」)的文本文档。每个文档以潜在主题的概率分布形式呈现,每个潜在主题都是词的概率分布。LDA 的生成过程如图 5 所示,过程图示见图 6。

图 5:在收集到的白皮书上运行 LDA 模型。

图 6:LDA 模型概览。假设我们有 M 个白皮书、K 个主题、V 个不同单词。每个白皮书 m ∈ M 都有文档-主题分布 θ(M × K 矩阵)。每个主题 k ∈ K 都有主题-单词分布 φ(K × V 矩阵)。

ICO 评级模型

IcoRating 是一个基于机器学习的评级模型。这里使用的模型是监督学习模型。在标准监督学习设置中,研究者希望找到模型 F,可使输入 x 映射至输出 y:

输入 输入 x 是 ICO 项目,包括其公开可获取的各方面信息。

表 2:不同 LDA 主题的 top word,以及分配至该主题的加密货币。

输出 输出 y ∈ {0, 1} 是一个二分变量,表示输入 ICO x 是否为诈骗项目。这里的关键问题是如何确定 ICO 项目是诈骗项目。本文认为如果数字货币在其 ICO 一年后下跌 80%,则该 ICO 项目是诈骗项目。换言之,通过检查数字货币的历史价格,如果数字货币一年后的价格不到初始价格的 20%,则我们认为该 ICO 项目是诈骗。在收集到的 2251 个项目中,研究者收集了 1482 个项目的历史价格,且这些 ICO 项目都实施至少一年(截止到本研究进行时)。

结果

实验结果展示了使用不同的特征组合识别 ICO 诈骗项目的结果。随着 m 值从 0.01 逐渐提升至 1,诈骗项目的比例也逐渐增加,查准率不断提升,召回率逐渐降低。实验显示,白皮书和 GitHub 库是最重要的两类特征,在 m 值分别为 0.1 和 0.5 时 F1 分数都达到了 0.7。研究者考虑了更多特征,能够逐渐获得更好的查准率和召回率。研究者使用所有类型的特征,在 m=1 时预测 ICO 诈骗项目达到了 0.83 的查准率、0.77 的召回率和 0.80 的 F1 分数。

表 5:识别 ICO 诈骗项目的结果。

想要更深入了解区块链原理,实战比特币与智能合约开发;

七月在线《区块链实战》课程特价抢先报名 !

另,本课程设置毕业考试且1v1批改,布置作业且解答作业,只为全力保障各位学员学习效果,以及时查漏补缺,找到好工作。扫码或点击“阅读原文”获取课程详情。


课程大纲

第一阶段 基础知识

第一课 从比特币到区块链

知识点1:比特币的目的

知识点2:实现比特币面临的分布式挑战

知识点3:账本的作用

知识点4:区块链的本质与实现

知识点5:区块链技术的社会价值

知识点6:区块链技术与监管

知识点7:黄金or郁金香


第二课 共识、挖矿、交易以及钱包详解

知识点1:PoW/PoS/DPoS简介

知识点2:挖矿机制分析

实战项目:使用Python生成比特币地址

知识点4:交易详情

知识点5:交易脚本

实战项目:钱包配置


第三课 手动实现简易区块链原型(代码实战)

实战项目:模拟实现:环境准备

实战项目:模拟实现:区块结构设计

实战项目:模拟实现:挖矿

实战项目:模拟实现:节点注册

实战项目:模拟实现:共识机制

实战项目:本地编译:代码下载

实战项目:本地编译:依赖安装

实战项目:本地编译:编译与安装

实战项目:常用命令测试


第二阶段 实战实验

第四课 比特币源码编译和本地实验(略懂C++即可)

知识点1:代码编译

知识点2:代码结构简介

知识点3:挖矿代码分析

知识点4:默克尔树简介

知识点5:交易代码分析

知识点6:本地测试网络安装

实战项目:利用测试网络玩转比特币


第五课 比特币的局限性及以太坊入门

知识点1:比特币的局限性

知识点2:闪电网络与大区块的取舍

知识点3:SPV机制

知识点4:以太坊白皮书解读

知识点5:EOS白皮书解读

知识点6:智能合约及应用场景


第三阶段 智能合约与开发实战

第六课 智能合约学习准备

知识点1:node.js安装配置

知识点2:JavaScript入门教学

知识点3:异步编程思维的建立

知识点4:JavaScript面对对象开发

知识点5:JavaScript网络编程

实战项目:开发环境准备


第七课 智能合约开发入门(实战项目)

实战项目:合约编写

实战项目:部署测试

实战项目:前端开发

实战项目:实现售票合约

实战项目:实现投票合约


第四阶段 商业分析

第八课 ICO揭秘以及如何发币

知识点1:ICO vs IPO

知识点2:ICO流程

知识点3:皮书解读与价值分析

实战项目:如何自己发币

登录查看更多
0

相关内容

【2020新书】实战R语言4,323页pdf
专知会员服务
102+阅读 · 2020年7月1日
最新《Deepfakes:创造与检测》2020综述论文,36页pdf
专知会员服务
65+阅读 · 2020年5月15日
广东疾控中心《新型冠状病毒感染防护》,65页pdf
专知会员服务
19+阅读 · 2020年1月26日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
304+阅读 · 2019年12月23日
【白皮书】“物联网+区块链”应用与发展白皮书-2019
专知会员服务
94+阅读 · 2019年11月13日
【数字孪生】数字孪生技术从概念到应用
产业智能官
94+阅读 · 2020年2月16日
【数字孪生】使用数字孪生体进行预测性维护
产业智能官
27+阅读 · 2019年7月22日
【干货】电商数据中台如何构建?
AliData
11+阅读 · 2019年4月4日
【数字孪生】数字孪生的前世今生及未来之路
产业智能官
31+阅读 · 2019年1月22日
刘强东人设崩了,京东没崩
PingWest品玩
6+阅读 · 2018年11月20日
2018年中国供应链金融行业研究报告
艾瑞咨询
7+阅读 · 2018年11月20日
【数字孪生】一文读懂数字孪生的应用及意义
产业智能官
43+阅读 · 2018年9月28日
人工智能与机器学习技术在医疗保健行业中的应用
深度学习与NLP
11+阅读 · 2018年3月25日
【区块链】区块链是什么?20问:读懂区块链
产业智能官
8+阅读 · 2018年1月10日
Arxiv
7+阅读 · 2018年12月10日
Arxiv
7+阅读 · 2018年1月18日
VIP会员
相关资讯
【数字孪生】数字孪生技术从概念到应用
产业智能官
94+阅读 · 2020年2月16日
【数字孪生】使用数字孪生体进行预测性维护
产业智能官
27+阅读 · 2019年7月22日
【干货】电商数据中台如何构建?
AliData
11+阅读 · 2019年4月4日
【数字孪生】数字孪生的前世今生及未来之路
产业智能官
31+阅读 · 2019年1月22日
刘强东人设崩了,京东没崩
PingWest品玩
6+阅读 · 2018年11月20日
2018年中国供应链金融行业研究报告
艾瑞咨询
7+阅读 · 2018年11月20日
【数字孪生】一文读懂数字孪生的应用及意义
产业智能官
43+阅读 · 2018年9月28日
人工智能与机器学习技术在医疗保健行业中的应用
深度学习与NLP
11+阅读 · 2018年3月25日
【区块链】区块链是什么?20问:读懂区块链
产业智能官
8+阅读 · 2018年1月10日
Top
微信扫码咨询专知VIP会员