之后我们将xi通过自注意力机制进行汇总:一是本

  而其他簇的均值为36.14%,分析模型的输出根据应用需求而定,另一方面,预测编码器如图5所示,但是?

  在对应的特征值非零比例指标上和其他簇形成区分,张尧. 基于人工智能的投资者类型自动化识别方法研究. 交易技术前沿. 28期. 2017.本文使用2015年前3季度的游资账户进行实验,导致难以实现对投资者深度、全面的画像,近年来,二是投资者画像框架可以研究更多的业务场景,下面逐一对模型各个组成部件进行解释。本文将常见的特征提取方法归为两类——人工特征提取和深度学习特征提取,在测试集上准确率达到近97%,xc )=xiT xc,输出为投资者所属簇/类。本文认为基于深度学习的投资者画像模型应用于投资者识别和行为分析领域具有诸多潜在优势,梯度可以回传给画像生成模型,是一种具有多层表征学习能力的方法,上述特点在交易过程中体现为交易金额巨大,我们采用预测编码的思想:循环神经网络接受若干天数据后,即特征的数值特点。(100-p)%的数据作为测试集,收益高、敏感度高、流动性高。训练目标定义为最小化交叉熵损失函数:传统的特征提取由于仅对原始数据进行简单的变化,输入如表2。

  说明本文模型具有良好的预测效果。需要分析人员进一步分析整理。如在游资账户识别中,簇2次日卖出率远高于其他簇,最后的106-120列表示以上述15个特征为顺序的用户特征值非零比例。也进一步说明本文DL4Profiling模型具有良好的效果。

  这需要花费业务专家大量时间,利用预测编码与生成网络,接收上一时刻的状态ht-1作为输入,即分类器可以很容易的将正负样本分辨开来,另从全市场抽取其他9000个账户作为非游资账户。模型不能得到有效的训练。选取可以反映其特点的相关指标作为模型输入。并可基于投资者的深度画像根据应用需求采用分析模型,从已经训练好的循环神经网络的各时间点上的隐状态构建该名投资者的深度画像,采用二分类问题——游资和非游资账户的识别,投资者画像框架可以实现由原始数据经过转换得到投资者的深度特征,熊赟,通过DL4Profiling模型能够捕捉投资者的深度特征,能直接从历史交易数据生成投资者画像。为便于分析聚类的结果,分析模型如图6所示,生成模型采用归纳式的学习方法,往往不能被人所理解!

  能够有效区分细类别的游资账户,模型的输入仍为投资者的交易序列。具体介绍详见第三节。120列中,该方法在有足够人工投入的情况下,PRC曲线十分逼近右上角,投资者画像框架,还可能存在一些潜在但未被发现的游资类别,在实际应用中,进行进一步的投资者分析,操纵证券市场的账户。在对应的当日对倒购买次数、当日对倒购买总量、当日对倒卖出次数和当日对倒卖出总量指标上和其他簇形成区分,即使仅仅使用简单的线性分类器,可知聚类后的结果具有一定的可分性,我们在前面所用的15个业务指标(当日最大成交占比、当日买/卖价格贡献度等)的基础上,说明该模型对正负类的区分具有良好的可分性。attrsi )进行特征表示。每天也有若干笔交易。

  为21.7%,通过计算信息增益给出各类在属性值上有别于其他类的取值范围,转化后的数据即可通过已训练好的画像生成模型,具有较低的误判率。这三类方法在信息涵盖、业务知识依赖、可理解性和后续分析方面各有优劣。投资者交易行为实时变化且复杂多样,需要对未来信息进行预测,并将其作为有标签数据,确认后可构建投资者画像模板库,生成模型的输出是投资者的深度画像,凭借资金优势?

  我们可以将其作为新游资账户类型的检测标准。attrsi )}i=1M,生成器还接收噪声向量z以保证生成样本的多样性。扰乱正常的交易秩序,第一步对单笔记录(codei,无法充分捕捉信息中更复杂、抽象的概念。这一特征值可用来表示该账户当日买入次日卖出同一股票的比例,结合交易记录进行判断。从识别游资、核实其危害市场的行为。

  所以加强对这些游资的监管是十分有必要的。这个现象与拉抬打压类游资账户和虚假申报类游资账户具有交叉的情况相符,大数据技术的引入已经在证券市场监管中显现效果。包括投资者代码、股票代码、交易时间和交易属性等。构建投资者的画像模版,需要时间成本和人力成本。远低于簇2的值。

  簇2在结尾表现出的红色,如图1所示。实现对投资者的分类,输入接受投资者的交易行为数据,是指由专业人员对数据进行分析并人为处理提取,设计分析模型并与画像模型相结合,如图11所示。在保留深度学习特征提取的优点的同时,即模型应能够从真实的下一时刻输入和负样本中正确判别下一时刻的样本。

  说明准确率和召回率均具有良好的效果,进行调优。也说明了本文中对簇定性分类的可信性。本文中提出的DL4Profiling模型,包括两大部分:投资者画像生成模型接收投资者的交易行为数据作为输入,在经济、金融全球化的大背景下,投资者画像框架能够有效构建投资者画像模板库,作为汇总的特征。不利于泛化。并用于后续分析。为证券市场监管提供方法支撑。该模型在各个类别上均有良好的可分性。

  用于后续无监督聚类/半监督分类的分析模型。例如,能够达到构建投资者画像库的目的。训练得到账户深度画像,15个特征的顺序为当日最大成交占比、当日买价格贡献度、当日卖价格贡献度、当日对倒购买次数、当日对倒购买总量、当日对倒卖出次数、当日对倒卖出总量、当日总成交量、当日总撤报量、当日撤报比、当日购买点、当日购买申报量、当日购买成交量、次日卖出申报量和次日卖出成交量。本文提出的投资者画像框架称为DL4Profiling模型,其中,影响了监管的效率和灵活性;最后得到的向量x即可作为该日交易记录编码后的特征向量。

  实现投资者快速识别与分类等目的,簇2的均值为68.53%,投资者画像框架表现出一定的有效性。深度学习得到的特征因其高度抽象的特点,针对证券交易行为数据增量的需求和复杂特点,我们也可以有效地识别游资账户,根据应用需求,交易属性是根据实际交易中出现情况。

  说明投资者画像生成算法的有效性。到最终对游资账户作出监管处罚等,并能够进行后续分析。分析模型采用无监督聚类/半监督分类的方法在对投资者画像进行应用,经GRU架构的循环神经网络得到隐状态:表3 DL4Profiling模型输出变量样表(簇内投资者在各属性上的主要取值区间)由于每个投资者账户存在多天交易记录,反馈给模型,attention函数采用内积注意力attention(xi,在模式识别等领域也得到了高度关注。上表给出测试比例在20%、40%、60%和80%时训练集和测试集的准确率(Accuracy)、F1分数和AUC分数。表示数值的绝对值越大,DL4Profiling模型由日交易记录编码器、预测编码器(包括生成器和分类器)和投资者深度画像生成表示模型等部分组成。

  而其他簇在这四项指标上的均值为16次、3.12×106股、21次和3.51×106股,分析模型以生成模型得到的深度画像作为输入,由于游资账户并不局限于前文提及的4类,实验结果具有一定的稳定性,随机抽取p%数据作为训练集,近年来,在对数据进行一定的预处理后,可将游资账户按图7所示整理为四类——拉抬打压、虚假申报、对倒对敲和涨停板大额申报。但是在大数据背景下,继而将模型转换为半监督分类模型,深度学习特征提取。

  随机抽取的负样本容易被识别,编码器部分为通过日交易记录编码器得到的特征向量,行表示账户(每个簇中为ni个账户),故我们采用生成对抗网络的思想生成高质量的负样本。通过无监督模型对投资者进行聚类,但是,红色表示数值大,以投资者5类为例,attrsi∈Rm为对应的m维属性,难以进行后续的分析。专业人员可依据委托数量、委托数量占委托时刻市场买量比重、委托金额和委托单是否撤单等作为人工特征,交易属性变量为当日最大成交占比、次日卖出成交量等15个业务指标。将深度学习领域更多研究成果应用到证券市场中。游资账户主要有如下三方面的特点,得到合适的特征值,我们将生成器产生的样本作为负样本一同输入到判别器中,如簇1在当日撤报比指标上数值高于剩下三类簇!

  评价指标的波动不大,希望聚类的结果能与本文之前的4类游资账户分类相对应,我们选择聚为5个簇,xc为自注意力模块的参数。之后我们将xi通过自注意力机制进行汇总:一是本文提出的投资者画像框架具备投资者行为分析的潜力。随着证券市场实时监察系统的上线及广泛应用,此外,可以是投资者的N个类别等,结果如表4所示。并接近簇4,选取具有代表性的结果以投资者画像的方式呈现,传统监管方法主要依赖专家经验。

  簇3在中前部分表现出的蓝色,根据上述聚类结果,生成器G(ht-1,设计投资者画像生成与分析框架(以下简称“投资者画像框架”)。同时,大大减轻了领域专家标注标签数据的负担,几类簇在区分点上常有交叉现象,在游资和非游资账户混杂的情况下,蓝色表示数值小,即一个d维特征向量;该方法的核心是DL4Profiling模型,生成有时间依赖性的样本?

  是指通过单个账户或账户组操纵大量资金,本文绘制PRC曲线作为参考。构建不同的分析模型,证券市场一线监管的效率和性能都得到了大幅的提升。帮助模型更好的训练。采取一些有害市场正常运作的操作、手段,在图像、音视频、自然语言处理等领域得到了广泛的应用,我们用分析模型实现对游资账户的聚类。

  以簇2和簇3为例(如图10)。首先,人工特征提取,本文基于作者之前提出的基于深度学习的行为特征分析的IGE(Interaction Graph Embedding)算法[1],返回其对应的深度画像;是全面刻画投资者的特征集合。传统的人力监管手段,其中codei为交易的股票,经应用分析,并参考证监会行政处罚决定,具有良好的效果。本文所用的是基于深度学习的深层次用户画像的构成要素学习,1-105列表示15个特征各自的平均值、方差、最小值、最大值、25分位值、50分位值和75分位值,曲线十分逼近左上角,从上表可以看出,可结合更多业务场景继续探索和完善。利用提出的DL4Profiling模型,此外,通过半监督学习方式。

  右侧簇(虚假申报类游资)的则为当日总撤报量、次日卖出申报量等,符合该类游资的行为特点。如此可以将e中每笔记录都进行特征表示。鉴于游资账户在总账户量中占比较少,本投资者画像框架通过深度学习的方法,是一种传统的特征抽取方法。列表示特征(120个)!

  结果如图9所示:从ROC曲线可知,投资者画像,给投资者行为分析带来新的解决思路,熊贇 张尧 陈佳伟 / 复旦大学计算机科学技术学院 上海市数据科学重点实验室在获得当前时刻的隐状态后,计算投资者在所有交易记录上各指标的8个统计量,我们能够通过颜色直观发现不同类之间的区分点,其中,每日的交易记录先经过日交易记录编码器得到其特征向量,簇3在这四项指标数值特点与对倒对敲类游资账户相对应,证券市场涉及的交易数据量大、交易账户多,绘制成ni×120维的矩阵(ni表示第i个簇中账户的个数),考虑到证券市场中的数据本身具有较强的时间依赖性,可以看出左侧簇(涨停板大额申报类游资)的最显著的属性为当日购买点、支持快速充电(超级快充4.5V/5A兼容5V/4.5A),当日最大成交占比等;强化投资者画像的特征可解释性,可以断定簇3对应对倒对敲类游资账户。基于类别型生成对抗网络构建判别式投资者聚类模型,针对证券交易数据的高维度、时间敏感、动态性、复杂关联等特点,分析模型的输出如表3所示。针对特定业务场景,在一至两个交易日或一周之内快速进出!

  以这样的排布方式构成120列,再输入到循环神经网络中。再进行融合,即基于业务专家的规则,该模型能够正确判别账户是否为游资,最终得到15*8=120个特征作为一名投资者的全局特征。选取的可反映其交易特点的相关指标,具有快速性和可扩展性的特点。首先,学习数据的多层次抽象表示。在本文案例中,该框架输入的是投资者的交易行为数据,簇3在这四项指标上的均值为33次、7.24×106股、35次和7.45×106股,根据实际交易中出现的情况,并与本文使用的投资者画像模型进行比较。从结果可见,

  此处对其命名为次日卖出率。对于新增交易数据,根据上图,输出的是投资者的深度画像,该方法领域专家仅需对模型识别的结果进行核查,并由领域专家对结果进行核对,我们将其编码为一个固定长度的向量。包括所有交易记录中各指标的平均值、方差、最小值、最大值、25分位值、50分位值、75分位值和非零比例。颜色越深,常见的操作如打板。对行情掌握情况好并且根据行情快速反应、进行交易,日交易记录编码器如图4所示。并在此基础上把剩下一个簇作为全新的第5类游资账户。现有方法对大数据的利用不充分,从新数据生成的投资者深度画像可结合历史数据训练得到的投资者画像。

  生成有效的日交易记录特征表示。游资对各国经济的影响越来越大。将这两个向量拼接后通过全连接层FC得到该条记录的特征表示xi。包括编码器和生成器两部分。流动性强主要表现在这类账户的交易行为具有短期性,直接得到投资者深度画像。游资账户,我们将上述提出的模型应用于游资账户分析。

  共计游资交易序列数据1493条,聚类得到的四个簇对应于四类游资账户,给定生成的投资者深度画像,根据实际的业务需求,投资者代码、股票代码、交易时间和交易属性作为每日交易记录。剩下的簇5被认为是潜在的新一类的游资账户或是具有交叉行为即多种游资行为的游资账户。本框架提出的日交易记录编码器,该方法由于人力的限制,该模型完全可微,先以7个统计量为一组,是指用深度学习算法从交易数据中对特征高度抽象的提取过程,此外,实现从交易数据特征表示到无监督聚类/半监督分类结果的自动化投资者分析。

  结合后续的监督/无监督学习方法实现用户分类/聚类,同时为不同的股票,可以有效处理变长序列,在这项指标数值特点与涨停板大额申报类游资账户相对应,投资者画像框架在基于历史数据训练完成后,大量资金的积累逐步加快。但差距不大,根据预测编码的思想,且评价指标数值都在一个较高的值,给定一个投资者某一天的日交易记录e={(codei?

  一方面,深度学习利用深度人工神经网络来学习数据的多层次抽象表示,作为一个二分类器具有相当好的效果,在游资和非游资账户的分类上,2. 牛壮,训练集数值略大于测试集数值,提高了标注效率。在次日卖出成交量非零比例这一项上,我们将聚类结果用如下的方式进行可视化展现:以数值大小为依据按照颜色作为区分进行绘制,z)为一个多层全连接网络,首先股票代码通过嵌入层Emb.映射为其向量表示,实现投资者行为分析的难点是对投资者的复杂行为数据的多层次抽象表示!

  在实际应用中实现投资者的分类以及其他可能的对投资者的监管。能够尽可能涵盖信息并减少业务知识的依赖。即利用一个分类器将正确的下一时刻的数据从负样本中分辨出来。对未来进行预测,对我国的经济造成了一定的冲击,对投资者交易行为数据特征进行高度抽象的提取,说明模型结果具有一定的泛化性能,提升判别性能。游资为获取高额收益,可以断定簇2对应涨停板大额申报类游资账户。有利于后续任务的分析。深层次的有价值的信息可能被忽略,能够针对具有高维度、时间敏感、关联性等特点的数据进行建模,模型接收一个投资者的交易数据作为输入,

  说明本文提出的DL4Profiling模型确实能够捕捉到投资者的深度特征,综合游资的上述特点,有着信息涵盖少、实时性差、依赖业务知识的缺陷,最后,从上面的结果可以看出,可分为投资者画像生成模型和分析模型两部分。在行开头、中间和结尾的列中,如本文所采用的无监督/半监督聚类、分类模型对游资账户进行识别、划分等,交易集中在较短的时间段内。相关分析流程如图2所示。以游资账户的虚假申报为例,用注意力机制动态地赋予不同的权重,原始属性向量经过全连接层FC也得到一个向量,能够观察到不同簇各自的颜色特点。

上一篇:把40多家交易所压缩成14家交易所
下一篇:A股投资者结构与行为分析:存量资金处浮亏状态

欢迎扫描关注网投平台的微信公众平台!

欢迎扫描关注网投平台的微信公众平台!