论文分享:《The Doge of Wall Street: Analysis and Detection of Pump and Dump Cryptocurrency Manipulations》

The Doge of Wall Street: Analysis and Detection of Pump and Dump Cryptocurrency Manipulations

MASSIMO LA MORGIA, ALESSANDRO MEI, FRANCESCO SASSI, and JULINDA STEFA, Sapienza

  • University of Rome, Italy
  • ACM Transactions on Internet Technology
  • 本文对社区通过互联网组织的两种市场操纵进行了深入分析:
    • pump and dump拉高出货
    • crowd pump群众哄抬

Pump & Dump 拉高出货

  • 拉高出货计划是一种与股票市场一样古老的欺诈行为。
    • 高度协调人群 在 Telegram 和 Discord 上系统地安排这种骗局。
  • 对这些群体进行了 3 年多的监测,发现了大约 900 起个别事件。
  • 报告了三个与暴涨和暴跌组相关的案例研究。
  • 利用我们独特的经过验证的拉高和转储数据集来构建一个机器学习模型,该模型能够在启动后的 25 秒内检测到拉高和转储,实现了 94.5% 的 F1 分数。

Crowd Pump 群众哄抬

  • 2021 Reddit 社区 GameStop(GME) 的价格抬高了 1,900%
  • 加密货币市场上 Reddit 社区复制了的操作。目标是 DOGE 和 XRP
  • 重建了这些操作是如何发展的,并讨论了与正常和倾倒的区别和类比

Contributions

  • P&Dump dataset (github上
  • detection model(实时ML
  • Crowd pump analysis 群众哄抬分析(Doge XRP 案例演示

P&Dump Group 拉高出货群组

  • 自发组织的一群人 在 Telegram 即时通讯平台或 Discord 服务器 上公开安排欺诈。
  • 每个人都可以在没有事先授权的情况下加入群组
  • 从 2017 年 7 月到 2021 年 1 月,每天加入并跟踪 100 多个小组进行的所有活动
  • 检索和收集独一无二的信息,例如内部团体组织、拉高出货安排的阶段,以及团体如何在市场内吸引外部投资者

群组组织

拉高和转储组有管理组的领导者(或管理员),以及成员层次结构。如果一个成员在层次结构中较高,他会通过比较低级别的人早几分钟显示目标加密货币来获得启动抬价的消息。这样,会员就有更高的可能性以较低的价格购买,并从拉高和抛售操作中赚取更多的钱。上一轮的时间优势一般在0.5-1秒之间,最大优势在1-10秒之间。大多数团体都被组织成一个隶属关系系统——通过将新人带入团体,可以提升等级制度。为该组带来的新成员数量越多,排名就越高。

图 1 显示了 Big Pump Signal 组的会员隶属系统和级别的好处。有些群组的层次结构很简单,只有两个级别:普通会员和 VIP 会员。在这些群组中,要成为 VIP,用户必须支付费用,通常以比特币形式支付,费用在 0.01 到 0.1 比特币之间。在拉高和转储组中,管理员是唯一做决定的人。我们只在极少数情况下看到管理员运行民意调查来决定抬价的时间或使用的交易所,但从未有决定目标加密货币。


群组组织


群组交流

所有的P&Dump Discord 服务器都以大致相同的方式组织,包括以下部分:

  • 信息和操作方法:这两个部分就像一个带有固定消息的公告板,都由几个房间组成,只包含一条或很少的消息
    • Info 房间通常包含组的规则、关于组的新闻、上下级系统如何工作 以及 FAQ
    • How-Tos 房间包含与加密货币相关的手册或参与拉高出货操作的最佳实践。
  • 邀请:此部分包含服务器机器人所在的房间。在这里,用户可以查询机器人以生成邀请链接以带来新成员或通过使用他们的邀请链接了解加入服务器的人数。
  • 信号Signal:这是群的核心部分,只有管理员可以写。通常,此部分有两个房间:pump-signal(分享了关于下一次暴涨和暴跌操作的信息)和trading-signal(分享交易建议)
  • 讨论:在这个部分,有涵盖不同主题的房间,小组成员可以在这里自由聊天。

通常,写在news和pump-signal房间 中的消息也会广播到 Telegram 频道。


组织实操

活动水平差异很大:最活跃的群组每天大约执行一次。较不活跃的群组每周进行一次。其他集团只有在他们认为市场状况良好时才会开展业务。

操作过程中的步骤通常如下:

  • 在操作前几天或几小时,管理员宣布拉高和出货将发生,并传达将使用的交易所、操作的确切开始时间以及操作是否为 FFA(Free for All 所有人同时获取消息)或排名(VIP 和层次结构中更高级别的成员在其他成员之前获取起始消息)。
  • 通知会重复多次,随着操作开始时间的临近,频率会更高。
  • 开始前几分钟,管理员分享了一些简单的提示和最佳实践:检查您的互联网连接,低买高卖,断开所有其他互联网活动以降低网络延迟,尽可能多地持有货币可能等待外部投资者。在这一点上,免费聊天室被关闭以避免所谓的 FUD(恐惧、不确定和怀疑)——有时是由于人类对赔钱的实际焦虑,有时是由于人们所做的虚假信息活动,其目的是破坏行动,使人恐慌,使恐慌在群体中蔓延。这对于避免通信服务器上任何可能的过载也很有用。

  • 在目标加密货币公开的既定时间,确切时间取决于在该组层次结构中的位置。通常,加密货币的名称包含在以只有人类才能正确读取的方式进行混淆的图像中。混淆背后的想法是让机器人难以使用 OCR 技术解析消息并比人类更快地启动操作。
  • 操作开始几秒后,管理员分享一条消息,邀请所有群成员传播加密货币价格上涨的信息。这是在专门的聊天框、论坛和 Twitter 中完成的。该活动旨在通过创造 FOMO(害怕错过)独特的投资机会来吸引外部投资者。
  • 最后,当操作结束时,管理员会重新打开免费聊天室并与成员分享一些关于暴涨的统计数据。

CASE STUDY

  • Big Pump Signal

图 6. 拉高和抛售 OAX 代币(OAX 加密货币暴涨的 前30秒 的放大图像)


BPS 拉升分析

BPS 小组在每次操作中移动大量比特币。图6 中蓝线代表买入量;橙色线是销售量。我们观察到第一秒的买卖量非常接近于零。然后,有两个购买高峰(图 6 中的蓝线),分别约为 65 个比特币(第 19 节)和 26 个比特币(第 21 节)。这两个峰值对应于 VIP 和普通成员的行为——考虑到该组具有排名策略,这是一种正常行为。
我们还观察到在第一个买入高峰时,即第 19 秒,卖出量达到峰值(图 6 中的橙色线)近 10 个比特币。考虑到团员还在买入,外人的反应时间太短,突然出现的大卖量是不正常的。只有两个可能的参与者可以出售他们的资产:机器人和管理员。要区分两者,我们需要调查单笔交易。我们的分析表明,随着价格上涨,有许多以增量价值进行的小额卖出操作,很可能是套利机器人所为。然后,当 OAX 硬币达到 0.00012 BTC 的交易价值时,我们观察到超过 4 个比特币的最后一次单笔交易,这可能是由该组织的管理员完成的。我们相信他们是通过限价卖出交易订单操作的——当交易对的价格达到/超过给定值时触发的条件订单。当然,同样的订单也可以由外部投资者下达。但是,我们认为,该金额的卖出限制(比初始价格高出 41%)很可能是内部人员造成的。


P&Dump 检测

众所周知,标准投资者是拉高出货计划的受害者。当他们看到加密货币的价格上涨时,他们会相信这是一个很好的投资机会。当拉高出货计划在起作用时,情况就不是这样了——上涨没有经济依据。这只是市场操纵。为了保护投资者,了解我们是否能够检测到正在发生的拉高和抛售以及多快是至关重要的。这是本节的目标。

加密货币(如证券)的挂单列在该加密货币的订单簿中。订单簿是一个双重排序的列表,其中包含尚未填写的卖出(询问)和买入(出价)订单。询价从最低价到最高价排序,出价从最高价到最低价排序。在市场上购买的最快方式是通过买入市价单。买入市价订单查找订单簿并填写所有待处理的请求,直到交易请求的货币数量。尽管市价订单几乎立即完成,但完成订单所需的第一个和最后一个询价之间的价格差异可能非常高,尤其是在流动性低的市场中。因此,订单的总成本可能会高得无法预测。更谨慎的投资者会使用限价买单,即以不超过特定价格购买证券的订单。买入市价指令在日常交易中并不频繁,投资者在需要快速执行时使用它们,就像拉高出货集团的成员在行动。我们的想法是使用这种模式和其他有关数量和价格的信息来检测拉高和抛售计划何时开始。


数据

  • 在已确认的暴涨和暴跌的文献中不存在数据集
  • 加入的 20 个小组中,只选择了在 Binance 上执行的暴涨和暴跌计划
    1. Binance 公开了 API,允许检索交易对整个历史记录中的每笔交易,这与其他交易所不同
    2. 在其他市场拉高出货通常是由活跃成员和经济资源很少的团体进行的。这些团体只能针对在计划实施前几天几乎没有交易量的替代币。
  • 从最初的拉高和抛售集合中,选择了 Binance 上的所有事件——317 个拉高和抛售事件
  • 检索了 14 天(事件发生前 7 天和事件发生后 7 天)的每次暴涨和暴跌的历史交易数据

数据

最后,我们在全球范围内拥有大约 900 天的交易时间。数据是交易记录列表:交易量、价格、操作类型(买入或卖出)和 时间戳。属于同一个订单的相同价格的记录有聚合数量,单个不同价格成交的订单被拆分成更多的记录。

不幸的是,Binance API 不会告诉买家下的订单类型(例如:市价、限价、止损),因此我们需要推断此信息。为此,我们可以利用市场订单立即完成这一事实,并且我们可以将在精确毫秒内完成的购买操作聚合为单个市场订单。由于我们不知道这些订单的原始性质,我们将它们定义为紧急订单。这种推理方法的一个问题是它错过了订单簿的第一个询问填写的市场订单。尽管如此,我们相信即使使用这种近似值,我们也能很好地见证市场订单的突然上升。


特征和分类器

使用数据来喂两个不同的分类器:随机森林 和 AdaBoost

我们基于 《Application of anomaly detection algorithms for detecting SYN flooding attacks》 的思想,通过自适应阈值检测拒绝服务攻击,构建了我们的特征。由于我们不想在我们的案例中找到阈值,我们以这种方式重新设计他们的想法:我们以 s 秒为单位拆分数据,并定义一个大小为 ww 小时的移动窗口。我们对有关窗口和块大小的不同功能集和设置进行了几次实验。由于我们的目标是构建一个分类器,从它开始的那一刻起就尽快检测出暴涨和暴跌方案,因此块大小必须相当短。在研究结束时,我们以 25 秒的块大小和 7 小时的窗口大小获得了最佳 F1 score;最佳速度为 5 秒的chunk_size和 35 分钟的窗口大小。


特征和分类器

使用的特征:

  • StdRushOrders 和 AvgRushOrders:移动窗口每个块中紧急订单量的移动标准差和平均值。
  • StdTrades:交易数量的移动标准差。
  • StdVolumes 和AvgVolumes:移动窗口每个块中交易量的移动标准差和平均值
  • StdPrice 和 AvgPrice:收盘价的移动标准差和平均值
  • AvgPriceMax:每个块中最高价格的移动平均值
  • HourSin、HourCos、MinuteCos、MinuteSin:每个块中第一个交易的小时和分钟。我们用正弦和余弦函数对这个特征进行编码,以表达它们的周期性

一旦检测到 Pump,就会暂停分类器 30 分钟,以避免针对同一事件发出多个警报。


急单的重要性

图 7 显示了 2018 年 9 月 9 日 VIBE 加密货币的拉高和抛售计划期间买卖紧急订单的数量。正如我们所看到的,紧急订单在拉高前的几个小时内很少见,并且在拉高开始时突然增长方案。比较买入和卖出加急订单的数量,我们注意到在暴涨开始时买入加急订单比卖出加急订单更为普遍。这是预期的,因为操作的第一部分,泵阶段,包括尽快购买资产。出于这个原因,我们只考虑购买紧急订单的数量作为我们机器学习模型的一个特征。
此外,紧急销售订单可能表明其他现象(例如,恐慌性销售)并导致误报。我们进行了一项实验,以了解紧急订单是否是检测暴涨和暴跌计划开始的实用特征,并找到一个阈值,超过该阈值可以将增长视为异常。


急单的重要性

图 7. VIBE 加密货币拉高和抛售期间的急单数量


急单的重要性

为了学习阈值,我们按以下步骤进行:

  • 我们计算 StdRushOrder 特征。
  • 然后,如果 pump 和 dump 信号的时间戳落在块时间范围内,我们将每个块标记为 True,否则标记为 False。我们将数据集随机分成训练集 (50%) 和测试集 (50%),计算训练集的准确率-召回率曲线,然后选择一个阈值,该阈值是准确率和召回率之间的权衡。
  • 然后我们在测试集的选定阈值处评估相同的指标。

图 8 显示了结果。我们选择 12.8 作为阈值(图中的黑色虚线)。该值在训练集(蓝线)上提供了 81.2% 的精度和 91.1% 的召回率。正如我们所见,相同的阈值在测试集上也提供了非常相似的分数(红色虚线)。鉴于这些结果,我们可以断言,紧急订单特征是评估暴涨和暴跌启动的极好参数。


实验结果

精确召回曲线


实验结果

使用 K 折交叉验证的分类器性能 与 特征重要性


实验结果

虽然我们为每个暴涨和暴跌计划检索了两周的数据,但最初我们只使用三天:欺诈当天、前一天和后一天。我们可以合理地假设在这个时间范围内没有针对同一代币的其他骗局。

事实上,在我们收集到的市场操纵中,不同的团体隔几天就在同一个替代币上安排了计划。
但是,我们知道有些群组会从聊天记录中删除拉高和出货信号,并且有些群组我们无法监控,例如使用中文或俄语交流的群组。
由于我们的数据集包含 317 个 pump and dumps,因此我们没有将数据集拆分为标准火车测试集。
我们进行了五折交叉验证以获得更可靠的性能评估。


实验结果

对于随机森林分类器,我们使用 forest 值为 200 的随机森林,每棵树的最大深度为 5。表 3 显示随机森林分类器在精度方面具有突出的结果。然而,当我们将块大小从 25s 减少到 5s 时,召回率迅速下降,从 91.2% 下降到 72.9%。为了解决这个问题,我们引入了一种新方法,利用了 AdaBoost 分类器。这种方法在精确率和召回率方面更加平衡,在 F1 分数方面也有更好的结果。此外,从分类器的结果中,可以注意到块大小与分类器性能之间的关系。事实上,虽然精度在所有时间范围内都相对稳定,但随着我们增加块大小,召回率会增加。

在表 4 中,我们列出了随机森林分类器使用的每个特征的重要性,这些重要性是使用基尼不纯度计算的。正如我们所见,最好的是基于紧急订单和交易数量的。一旦我们定义了我们的方法,我们就用 3 天的数据集训练了一个 25 秒的检测器分类器,并使用剩余两周的数据(超过 1400 万个 25 秒的数据块)作为寻找其他可疑事件的测试。评估后,我们得到了 86 个我们无法链接到证据的事件。从事件的动态来看,我们认为几乎所有事件都是拉高出货,其证据已被删除或由可能不公开或我们无法监控的团体组织

例如,图 9 显示了 5 月 8 日至 13 日 Agrello 代币 (DLT) 的烛台图。中间的事件是拉高和抛售,我们有证据证明这一点。另外两个是算法检测到的嫌疑人。如您所见,行为几乎相同,包括货币迅速恢复到正常价格(转储)这一事实。无论如何,我们的分类器基于对紧急订单异常存在的检测,而不仅仅是价格,在检测暴涨和暴跌以及无论如何有意识的投资者想要远离的可疑事件方面做得很好。


Long Range Experiment

在上一节中,我们发现了 86 起我们无法链接到证据的涉嫌暴涨和暴跌事件。这些事件可能会引起人们对在真实场景中使用我们的模型的担忧。因此,我们进行了一项实验来评估我们的检测器在长时间范围内的可靠性。

我们在三种截然不同的加密货币上测试了我们的检测器:Ethereum、Algorand 和 Bread。

  • 以太坊和 Algorand 分别是高市值和中等市值的加密货币,这些资产不太可能成为拉高出货事件的目标。因此,我们可以假设我们的检测器针对这些加密货币发出的每个警报都是误报。
  • 相反,Bread 是一种具有较高波动性的低市值加密货币。这意味着该资产更容易出现快速的市场震荡和市场操纵。

此外,根据我们的数据集,它是拉高出货的最有针对性的。我们考虑了从三种加密货币在 Binance 上市(Ethereum 2017-07-14,Algorand 2019-06-22,Bread 2017-12-2)到分析结束(2021-01 -31).

  • 对于以太坊,分类器在 1,276 天内发现了 24 个可疑事件。
  • 在 Algorand 上获得了类似的结果,分类器在 591 个交易日内仅发出 19 次警报(平均每月一次误报)。
  • 最后,对于 Bread,我们在三年多的数据中发现了 41 起暴涨和暴跌事件,其中 24 起出现在我们的数据集中,17 起可疑。

因此,每两个月发生一次可疑事件。根据这个实验,相信检测器在实际使用场景中可以派上用场,即使会产生一些误报(每个受监控的加密货币每月少于一个)。


实验结果


与其他检测器对比


群众哄抬

群众哄抬:一种由群众非直接组织的行为引起的暴涨和暴跌事件。

我们分析了这些操作是如何发生的,并说明了与标准暴涨暴跌的区别。

最后,我们提出可以利用我们的数据集来构建一个分类器,该分类器也可以检测群众哄抬事件。


群众哄抬现象描述

  • GameStop
  • DogeCoin
  • Ripple

群众哄抬分析

尽管众所周知,DogeCoin 暴涨是从一些流行的 subreddits [59] 开始的,但尚不清楚是谁启动了暴涨以及他们如何进行操作。我们分析了所有 Reddit 用户在上述 subreddits 上的帖子来回答这些问题。为了执行我们的分析,我们下载了从 2021 年 1 月 1 日到 2021 年 2 月 2 日提交的一些流行的加密货币相关子版块:r\SatoshiStreetBets、r\WallStreetBets、r\Cryptocurrencies 和 r\DogeCoin 子版块。

根据 Reddit 搜索工具,我们从这些子版块下载了数据,因为在此期间,术语“Doge”和“DogeCoin”主要出现在其中。为了检索提交的内容,我们利用了 Pushshift,克服了官方 API 的 1,000 个帖子的限制。我们在全球范围内检索了 656,146 个提交,其中 626,700 个(95.5%)来自 r\WallStreetBets,23,485 个(3.6%)来自 r\SatoshiStreetBets,5,443 个(0.8%)来自 r\Cryptocurrencies,最后 518 个(0.1%)来自 r\DogeCoin。
从下载的数据中,我们只考虑了包含硬币名称(“DOGE”、“DogeCoin”)的提交以及它们在加密货币俚语中使用的一些非常流行的变体,例如:“DOGIE”和“DOGUE” ”。


群众哄抬分析

最后,我们收到了 27,868 份提交,分布如下:19,016 (68.2%) 来自 r\WallStreetBets,8,383 (30.1%) 来自 r\SatoshiStreetBets,194 (0.7%) 来自 r\Cryptocurrencies,275 (1%) 来自r\DogeCoin。最后,我们研究消息随时间的分布及其与 DogeCoin 价格的关系。

图 10 显示了 subreddits 中提到 DogeCoin(蓝色实线)和 DogeCoin 的比特币价格(金色虚线)的提交数量。正如我们在图中左上角的图表中看到的那样,subreddits 在暴涨前的几周内很少提及该代币,并且价格稳定。在暴涨前的 24 小时(垂直虚线),可以注意到一些关于代币的提交开始稳步弹出。但是,价格仍然稳定。在垂直虚线之后,代币的受欢迎程度大幅飙升,价格突然上涨。从这一刻起,DogeCoin 的价格和 Reddit 上的提交数量遵循相同的模式。


在 subreddits 上发送的提及 DogeCoin 的提交数量与 BTC 中的 DogeCoin 价格。


群众哄抬分析

鉴于此分析,我们深入研究了暴涨前的帖子。目标是了解用户如何安排操作。我们发现,这些帖子中的大多数都试图吸引人们对 DogeCoin 提议抽取货币的关注。最初,用户不欢迎这些帖子。管理员经常删除内容,因为它违反了 subreddit 的网络礼仪。在这些提交中,我们在 r\DogeCoin subreddit 上发现了一个特别有趣的提交。在这里,一些用户试图在 1 月 28 日上午 10 点在 DogeCoin 上安排暴涨,比实际暴涨晚了五个小时。

尽管如此,这些提交都没有对 DogeCoin 的价格产生任何影响,如图 10 所示。在我们的意见和新闻中,触发 DogeCoin 反弹的消息发布在2021 年 1 月 28 日,世界标准时间 4:05:50 并声明:“让我们让 DOGIECOIN 成为一件事。就是这样,就是这个帖子”。提交只有标题,没有消息正文,也没有图片。为了更好地理解为什么这条消息触发了暴涨,我们调查了提交内容的创建者,希望她在 Reddit 社区中受欢迎。令人惊讶的是,我们发现,尽管用户在 Reddit 上非常活跃,提交了超过 854 条评论,发表了 769 条评论,但只有 4 条提交 (0.4%) 和 17 条评论 (1%) 与加密货币或金融相关。因此,作者是否是加密影响者值得怀疑,也很难理解为什么会有这么多用户关注这条消息。

我们还对 Ripple 加密货币的人群抽取进行了类似的分析。对于本案例研究,我们在与狗狗币相同的时间范围内分析 Reddit 上的消息,因为这两个事件发生在彼此的几天内。我们考虑与先前分析相同的 subreddit,除了 r\DogeCoin subreddit 并包括 r\XRP(5,444 次提交),在全球范围内获得 661,072 次提交。

在这种情况下,我们专注于提及其中一种加密货币的提交。图 11 显示了 subreddit 中提到 Ripple(蓝色实线)和 Ripple 价格(金色虚线)的帖子数量。正如我们所看到的,比特币在暴涨前几周很少被提及,而在暴涨前几天它开始受到关注。类似于狗狗币暴涨的情况。阅读这些消息,我们发现帖子增加的原因是受反 SEC 情绪驱动的 Redditor 以及受到 DodgeCoin 和 GME 暴涨操作的启发。 Telegram群“OFFICIAL BUY & HOLD XRP”的诞生聚集了这些用户,群成员开始宣传群本身。与 DogeCoin 人群泵不同,Reddit 上的帖子数量和加密货币价格似乎遵循相同的趋势,在这种情况下,两条线似乎更加独立,除了价格峰值。分析泵的开始(图 11 中的实线虚线),可以注意到价格迅速上涨,而 Reddit 上的提交数量却没有。几个小时后,价格回到其实际价值(UTC 时间 1 月 29 日 5:00),然后价格再次上涨(UTC 时间 1 月 30 日 16:00)。


这种行为让我们怀疑暴涨不是从 Reddit 启动的。因此,我们调查了在 Telegram 群组上发送的消息,为此我们能够导出所有消息、文件、视频和图像。 Telegram 群组精确统计了 200,000 名成员和 45,548 条消息。我们不知道该群组是何时创建的,但第一条消息出现在世界标准时间 1 月 28 日 20:19:09。与暴涨暴跌不同,组织者是在 Telegram Group 而不是 Telegram Channel 上进行的。因此,所有群组成员都可以在聊天中写字,而不仅仅是管理员。建群后,聊天室就开放了,成员们可以自由讨论活动内容和参与方式。然而,情况在世界标准时间 1 月 29 日 5:00 左右升级。从这一刻起,也许是因为瑞波币价格的轻微波动,或者是一群用户的群外协同动作,成员们开始催促聊天购买代币,比预期更早开始组织暴涨。
这一事件几乎与我们在图 11 中看到的第一次价格飙升同时发生。管理员迅速做出反应,关闭了聊天,并在暴涨前仅恢复了两次——第一次是在 1 月 30 日 20 点:05 UTC,第二个在 1 月 31 日 6:03 UTC。在这两种情况下,聊天只打开了 30 分钟,管理员要求群组成员说明他们发帖的国家/地区。然后,在暴涨前九小时再次打开聊天几秒钟。如前所述,暴涨失败了,因为该集团无法进一步提高代币的价格。



区别

在我们的分析结束时,我们发现人群拉高和拉高出货操作之间存在以下主要区别:

  • 不同的目标:众筹的目的不是抬高资产价格并将其出售给不知情的投资者。在此类操作中,组织者和社区的一部分经常鼓励参与者持有股票以保持高价值。我们在加密货币市场上进行的两次人群抽奖活动中都注意到了这种态度。

  • 缺乏协调和领导:即使我们看到两次群众哄抬活动都试图在特定时间协调购买,但他们总是失败。与标准的暴涨暴跌不同,组织者会提前透露要暴涨的代币。因此,人们开始提前或在他们认为操作已经开始时购买代币。市场的简单波动或单个帖子都可能引发连锁反应,从而导致暴涨。


区别

  • 不同的时间框架和价格上涨率:正如我们所见,在标准的暴涨和暴跌中,操作持续几分钟或很少持续几个小时,价格几乎立即上涨。在众筹中,价格异常上涨,但代币需要数小时或数天才能达到最高点。这种行为是由多种因素造成的。目标不同,一些投资者不会立即出售代币以获利。没有人知道暴涨何时启动。因此,人群意识到手术已经开始可能需要一些时间。最后,新闻和有影响力的人就像一个回声室,越来越多的人加入这个过程,使代币的价格一波接一波地上涨。因此,在标准拉高和抛售中,随着活动结束,代币价格恢复到其自然水平,而在人群拉高和抛售中,一个多月后,狗狗币的价格仍比其之前高出 500% 暴涨,XRP 仍然高出 100%。

Crowd Pump Detection 群众哄抬检测

在本节中,我们评估了我们的机器学习模型在检测人群泵操作方面的潜力。尽管人群拉高和标准拉高出货之间存在一些关键差异,但我们的直觉是,紧急订单在这种操作中也是一个非常相关的特征。

特别是,我们考虑了 Elon Musk 在推特推狗狗币的推文发布前后两小时内的紧急订单数量。我们做出这个选择是因为,在这种情况下,我们有推文的时间戳,我们可以确定操作开始的时间。


推文发布后两小时内的紧急订单数量


紫色线表示以 25 秒为一组的加急订单数量,而红线以 10 分钟为一组。在图中,可以注意到推文后有相当数量的紧急订单,就像管理员宣布目标代币后的暴涨和暴跌事件一样。然而,查看紫色线(25 秒块),我们发现紧急订单的模式与我们看到的标准暴涨和暴跌的模式非常不同(图 7)。确实,加急订单的数量并没有整齐的大峰值,而是逐渐增加的几个小峰值。这种行为并不奇怪。投资者之间没有同步性——他们一波一波地涌入市场,这取决于消息何时到达网络上的社交平台以及他们何时看到消息。

由于这种不同的行为,我们在标准 pump 和 dumps 上训练的检测器无法捕获分析短交易块的 crowd pump。此外,由于缺乏数据集,我们无法有效地为人群泵操作训练新的检测器。然而,扩展块的时间范围大小可以将不同的紧急订单浪潮折叠成一个独特的块,并获得一个轮廓清晰的尖峰。图 12 中的红线显示了以 10 分钟为一组的加急订单数量。在这里,我们可以看到该模式与拉高出货操作非常相似,就像图 7 那样,因此现在有理由认为我们的检测器可以发现此类事件。


新模型

为了检测群众哄抬,我们训练了一种基于随机森林算法的新分类器,就像用于检测标准暴涨和倾倒的分类器一样。这一次,我们在第 4.2 节中描述的完整数据集(317 个暴涨和暴跌事件)上训练了模型。除了与时间相关的特征外,我们使用了与构建前一个检测器相同的特征。我们删除了这些功能,因为它们是专门为 Telegram 组执行的标准拉高和转储量身定制的。新检测器在 5 折交叉验证中获得了 89.4% 的 F1 分数。在人群暴涨的情况下,我们仅在两个事件上测试我们的方法:XRP 和 DOGE。对于训练阶段,我们使用了 25 秒的块。相反,我们在测试阶段以 10 分钟为单位汇总交易数据。检测到事件后,我们将分类器暂停六个小时以避免多次警报。在这种情况下,我们暂停分类器的时间比标准泵和转储时暂停的时间长,因为操作持续的时间更长。


狗狗币暴涨

为了确定我们的检测器是否可以捕捉到 DogeCoin 人群暴涨的开始,我们从 Binance 下载了 2021 年 1 月 1 日至 2 月 10 日的所有交易。即使我们知道暴涨发生在 2021 年 1 月 28 日,我们仍然运行检测器在暴涨前几周检查是否检测到任何可疑活动并验证分类器对误报的稳健性。在执行结束时,我们的分类器检测到以下五个事件:


瑞波暴涨

同样,对于 Ripple 群众哄抬,我们对 2021 年 1 月 1 日至 2 月 10 日在 Binance 交易所关闭的所有交易运行我们的分类器。在考虑的时间范围内,检测器会发出以下四个警报:


DISCUSSION

拉高出货行为是否有可能避免被发现?

特征基于某些市场参数的异常变化,同时能够抵御波动的加密货币市场的自然振荡。如果群组管理员或其他成员逐渐购买货币,并且用户很少,我们的分类器可能无法检测到拉高和抛售。事实上,我们的分类器无法检测到我们数据集中的四个暴涨和暴跌。这四个事件都是由一个小组进行的,并且它们都在抽水前的几个小时内记录了一致的抽水前阶段。幸运的是,管理员不能经常使用这种技术来避免被发现。事实上,局外人可以检测到这种模式,以增加预测目标的可能性。此外,这些活动经常失败,大多数用户可能会失去对管理员的信任并离开群组。


DISCUSSION

拉高出货组织能否操纵比特币或主要加密货币?

为了回答这个问题,我们做了一个简短的模拟。让我们以我们监测到的最大暴涨暴跌前 10 分钟的买入量为例。在 SingularDTV (SNGLS) 上是 31 BTC。现在,我们拍摄交易对 BTC/USD 的交易所订单簿快照。我们假设市场冻结,只有拉高出货群组成员可以采取行动。这是涨价的最佳案例。我们发现,他们可以支配的资金量可以使 BTC 价值增加不到 5 美元,这远小于比特币在 10 分钟内的自然振荡。所以,答案是否定的。虽然这些团体非常庞大,但他们无法攻击像比特币这样的大容量货币。


DISCUSSION

交易市场是否有可能停止拉高出货计划?

在这项工作中,我们表明可以在启动后立即检测到泵和倾倒方案。我们还相信,当欺诈计划在行动时,交易所可以比我们更好地发现。事实上,交易所拥有的数据更细粒度:它完全了解所执行的操作类型、数量,以及在计划期间执行这些操作的确切人员。此外,我们注意到几乎没有政策执行可以减少这些市场操纵的数量。如前所述,2017 年 11 月 25 日,BitTrex 交易所宣布积极阻止任何市场操纵,并将开始惩罚参与者 [6]。此后,交易所的暴涨和暴跌数量急剧减少。我们统计,在声明发布之前,从 2017 年 7 月到 11 月底的五个月内,拉高和抛售超过 50 次,而在声明发布后的三年多时间里,只有 48 起事件。另一种对策可能是在加密货币的收益或损失超过某个阈值时停止交易,或者对市值和交易量极低的加密货币给予特殊保护。此外,一些交易所列出了交易量很小的加密货币。将这些加密货币除名,就像一些交易所所做的那样 [17],可能会让较小的团体停止。


FutureWork

这项工作未来可能的方向是根据从 Reddit 或 Twitter 等社交网络中提取的信息,在我们的系统中集成新功能。
如前所述,图 10 和图 11 显示了 Reddit 提交与代币价格上涨之间的某种相关性。这表明从社交网络中提取的信息可以用作识别人群泵的特征。特别是,将社交媒体整合到模型中的优势可能对于帮助消除硬币价格上涨不是由于市场操纵而是由于稳固的市场基本面的情况至关重要。在我们的研究过程中,我们发现了大量的信号组。这些组比 pump 和 dump 组更重要,并且更频繁地安排操作。作为未来的工作,研究这些群体的影响及其对市场的活动会很有趣。我们在 XRP 和 DOGE 加密货币的两个人群泵上测试了我们的分类器。收集更大的数据集以进一步评估我们检测器的性能会很有趣。最后,验证我们开发的用于检测加密货币市场暴涨和暴跌的方法是否也可用于检测股市中的这些市场操纵也将很有趣。