加密货币:如何利用机器学习识别加密项目风险？

作者：PengtaiXu

翻译：Sherrie

加密货币和监管的必要性

加密货币是一种存在于数字世界的交易媒介，依靠加密技术使交易安全。加密货币背后的技术允许用户直接向他人发送货币，而不需要通过第三方，如银行。为了进行这些交易，用户需要设置一个数字钱包，而不需要提供身份证号码或信用评分等个人细节，因此可以让用户伪匿名。

对于普通的加密货币用户来说，这种匿名性可以让他们放心，因为他们的个人信息或交易数据不会被黑客窃取。然而，这种交易匿名性的提高，也容易被犯罪分子滥用，进行、恐怖融资等非法活动。这种非法活动给区块链钱包用户以及加密货币实体都造成了巨大的损失。虽然金融行动特别工作组等监管机构已经在这些实体的监管中引入了标准化的指导方针，但由于每天都有大量的加密货币实体和交易发生，监控加密货币空间是一项具有挑战性的任务。

解决方案

金色相对论｜比特币减半特辑之行情篇:减半完了减半行情却没来？今天晚上19:00，金色财经特邀五大分析师：OKEx研究院William、火币金牌分析师寒江孤影、KEX首席分析师启明星、合约帝联合创始人小叮当、币圈逃顶第一人保罗大帝做客「金色相对论」，为你分析减半行情的方方面面。锁定金色财经直播间，不错过致富密码！[2020/5/12]

图片来源：?https://dribbble.com/shots/2723032-Needle-in-a-Haystack

因此，人们有兴趣利用开源信息，例如新闻网站或社交媒体平台，来识别可能的安全漏洞或非法活动。在与LynxAnalytics的合作中，我们已经致力于开发一个自动工具，以刮取开源信息，预测每篇新闻文章的风险分数，并标记出风险文章。这个工具将被整合到Cylynx平台中，这是LynxAnalytics开发的一个工具，用于帮助监管机构通过使用各种信息源监控区块链活动。

开源信息的数据获取

金色沙龙 | 燕丽：零知识证明对于协调区块链底层扩容也有很大帮助:在今日举行的《隐私计算——区块链信息安全守护者》为主题的金色沙龙中，算力智库创始人燕丽表示，2020年1月1日，中国首部《中华人民共和国密码法》将正式开始实施，而在这之前一直只有一部 2007年4月23日公布的《商用密码产品使用管理规定》和《境外组织和个人在华使用密码产品管理办法》。很多人把这次《密码法》和2019年“1024”中央把区块链技术作为国家战略联系在一起。区块链技术是完全基于密码学技术，所以按照这个逻辑，如果政府要完全掌控未来区块链技术的发展，首先就要完全掌控密码学技术，而这个其中的核心是国家主权范围之间在所有的通信安全和商业行为之间军备竞赛的升级。区块链有大量扩容压力，而为了达到这个操作，必然要牺牲系统处理效能和部分隐私。但矛盾的是，区块链前期的应用场景如虚拟货币，数字金融等，都需要有更好的隐私保护和不容易被恶意攻击的防护。所以若想让区块链技术落地生根，那么提高区块链底层技术来满足对于高安全性(含高完整性和高保密性)、高性能、高广义效率的要求，也许是个稳妥做法。所以隐私计算中的零知识证明等对于协调区块链底层扩容也有很大帮助。[2020/4/15]

我们确定了3类开源数据，这些数据可以提供有价值的信息，帮助检测加密货币领域的可疑活动。这些类别是：

分析 | 金色盘面：过去1小时十亿市值俱乐部集体下跌:金色盘面综合分析：17家市值过10亿美元的标的，在过去1小时仅有3只上涨，其余全线下跌，虽然跌幅有限，但在技术背离的压力线，多头承压，短线建议投资者规避风险，做好风控。[2018/9/3]

传统的新闻网站，如谷歌新闻，它将报告重大的黑客事件。

加密货币专用新闻网站，如Cryptonews和Cointelegraph，它们更有可能报道小型实体和小型安全事件的新闻。

社交媒体网站，如Twitter和Reddit，在官方发布黑客新闻之前，加密货币所有者可能会在那里发布有关黑客的消息。

检索文章和社交媒体帖子的内容，然后建立情绪分析模型。该模型为文章中提到的实体分配了一个风险活动的概率。

分析 | 金色盘面：BTC 夜间回落 6200再次获得支撑:金色盘面综合分析：BTC夜间回落，跌破短期的上升趋势，在6200美元左右再次获得支撑，若能在此位置企稳，则有望再次上攻6400美元。山寨币呈两极分化状态，一部分山寨币依旧处于下跌状态，另一部分山寨币已经出现了超跌反弹的迹象，说明市场情绪尚未统一。恐慌情绪正在逐渐减弱，BTC若能突破6600美元至6800美元的重压力区间，将会给市场带来更大的信心。[2018/8/17]

情绪分析模型

我们尝试了四种不同的自然语言处理工具进行情绪分析，即VADER、Word2Vec、fastText和BERT模型。在通过选定的关键指标对这些模型进行评估后，RoBERTa模型表现最佳，被选为最终模型。

图片来源：?https://www.codemotion.com/magazine/dev-hub/machine-learning-dev/bert-how-google-changed-nlp-and-how-to-benefit-from-this/

美国证券交易所：加密货币交易所没有透露是否对一些用户提供了优先服务以及平台如何挑选加密货币:据华尔街日报，美国证券交易所今天发布了有关加密货币交易所存在不规范问题的公告。SEC在公告中表明，加密货币交易所存在非法运营的风险，这是因为他们没有透露如何优先考虑投资者的订单或如何选择在其平台交易何种加密货币。前SEC官员，现任由投资者支持的健康市场协会的执行董事Tyler Gellasch透露：“SEC不仅要管理产品，还要管理他们交易和交易的地点。”SEC没有在其声明中提及具体的加密货币交易所，但提醒投资者，监管机构对交易所的实际运作方式知之甚少，不知道它们是否为其中一些交易者提供了优先于其他交易者的服务。SEC表示，虽然其中一些平台声称采用严格的标准来挑选高质量的加密货币资产进行交易，但SEC并没有审查过这些标准。[2018/3/8]

RoBERTa模型对新闻文章或社交媒体帖子的文本进行处理，并为特定文本分配一个风险分数。由于该文本在数据收集过程中已经被标记为实体，我们现在已经有了加密实体的相关风险指标。在后期，我们将多个文本的风险分数结合起来，给出一个实体的整体风险分数。

RoBERTa原本是一个使用神经网络结构建立的情感分析模型，我们将最后一层与我们标注的风险分数进行映射，以适应风险评分的环境。为了提高模型在未来文本数据上的通用性，我们进行了几种文本处理方法，即替换实体、删除url和替换hash。然后我们使用这个表现最好的模型进行风险评分。

风险评分

现在，每篇文章都有一个相关的来源，一个风险概率和一个计数，指的是文章被转发、分享或转发的次数。为了将这些风险概率转换为加密货币实体的单一风险得分，我们首先将文章的概率值缩放到0到100的范围内，并获得每个来源的加权平均值，结合文章的风险得分和计数。加权平均数用于对计数较高的文章给予更大的重视，因为份额数量很可能表明文章的相关性或重要性。

在计算出各来源的风险得分后，我们对各来源的风险得分进行加权求和，得到综合得分，公式如下：

传统的新闻来源被赋予了更高的权重，因为这些来源更有可能报道重大的安全漏洞。

该解决方案的有效性

我们在2020年1月1日至2020年10月30日的174个加密货币实体的名单上测试了我们的解决方案，并将结果与该时间段内的已知黑客案例进行了比较。我们发现，我们的风险评分方法表现相当出色，在37个已知的黑客案例中识别了32个。我们还分析了我们的解决方案对单个实体的有效性。下图显示了Binance从2020年1月1日至2020年10月30日的风险评分。虚线红线代表已知的黑客案例。从图中我们观察到，我们的解决方案报告了5个已知黑客中的4个黑客的风险得分增加。也有几个峰值与已知黑客案例不一致。然而，这并不构成一个主要问题，因为对我们的模型来说，更重要的是识别尽可能多的黑客，减少未识别的黑客数量。

有趣的发现

在风险评分过程中，我们注意到，与规模较小的实体相比，规模较大的实体的风险评分往往有较大比例的假阳性记录。这是因为大型实体被谈论得更多，因此会有更多的负面帖子和虚假谣言，从而导致更高的不准确率。

另一个值得强调的有趣趋势是，围绕着黑客攻击通常有几个明显的高峰。这是由于不同数据源的反应时间不同。社交媒体网站Twitter和Reddit通常是第一个看到高风险事件发生时的高峰，因为用户会发帖提出他们观察到的异常情况，比如一个实体的网站在没有事先通知用户的情况下宕机。官方消息一般是在官方声明之后，稍后才会发布。

局限性

我们发现，我们的解决方案有两个潜在的局限性，首先是需要不断地维护收集器。网站设计可能会随着时间的推移而改变，这些网站的刮擦器需要更新，以确保相关信息仍能被检索到，从而达到风险评分的目的。

第二个限制是，验证一篇文章是否已被正确地标记为加密货币实体是具有挑战性的。例如，一篇报道Bancor可疑活动的文章可能也会因为一个不相关的事件提到Binance。我们的解决方案会错误地将新闻标记为两个实体，并将Binance标记为风险，即使它不是文本中的关键主题。然而，这并不是一个主要的限制，因为我们只使用新闻文章的标题和摘录来进行风险评分，这通常只包含文章的关键信息。

结语

我们的项目让监管机构可以轻松挖掘开源信息，更好地识别加密货币领域发生的风险事件。我们提供了一个分析文章并预测风险分数的语言模型，以及根据实体和来源信息汇总这些分数的方法。这些方法都被编织成一个可以端到端运行的自动化流水线。将该项目整合到Cylynx平台中，将对其现有功能进行补充，并为监管机构识别高风险加密货币实体提供巨大的帮助。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

比特币价格ETF:华尔街“最危险的女人” 木头姐和她的ARK神舟

木头姐的团队招揽来自五湖四海、背景各异的分析师,其中有癌症科学家,人工智能专家,游戏工程师,甚至船长.

DOTETF:金色DeFi日报 | DeFi总市值超过300亿美元

DeFi数据 1.DeFi总市值：307.84亿美元市值前十币种涨跌幅,金色财经制图,数据来源Coingecko2.过去24小时去中心化交易所的交易量：15.9亿美元金色相对论｜比特币减半特.

欧易okex官网比特币:加密行业巨头正在和比特币价格形成正反馈

狂人本着负责,专注,诚恳的态度用心写每一篇分析文章,特点鲜明,不做作,不浮夸！本内容中的信息及数据来源于公开可获得资料,力求准确可靠,但对信息的准确性及完整性不做任何保证,本内容不构成投资建议.

Coinw比特币:金色午报 | 1月14日午间重要动态一览

7:00-12:00关键词：2万亿美元、DOT、TwitterCEO、检察日报1.北京：探索推动区块链技术在信用领域的规模化应用；2.拜登援助计划规模大约为2万亿美元；3.DOT突破11.

链链资讯

加密货币:如何利用机器学习识别加密项目风险？

链链资讯