!"
Bagging
#$%&'()*+,-./01234
!"
上市公司财务数据造假的情况会给股民及证券市场带来巨大的经济损失。因
此投资者若能在投资前识别出数据造假的公司进行规避投资,就能有效降低投资
风险,保障资金安全。
数据集中的所有上市公司来自 19 个行业,其中制造业的公司是最多的,有
2667 家。其他行业的上市公司数量分布相对均匀,且数量较少。因此我们就将整
个数据分成制造业和其他行业,在此基础上训练的模型效果会更好。
针对问题一,我们用 SMOTE 采样数据训练 DT,RF,ET,XGBoost,KNN、
LR、LGBM、AdaBoost 八种机器学习算法.选出最优的四种算法 DT,RF,ET,
XGB 去求制造业和其他行业的公司财务数据造假有较大影响的特征。在 AUC 指
标最优的情况下,将 DT,RF,ET,XGB 这四种基于树模型的特征选择结果进
行综合。计算出特征重要性权重值,分别选出制造业和其他行业不同训练模型中,
特征权重值排名前 30 的特征作为上市公司财务数据造假有较大影响的特征因子。
制造业中排名前 5 的特征因子是:
基本每股收益,其他应付款,截止日期,
未分配利润,投资活动现金流出小计
。(完整 30 个特征请参考结论)
其他行业中排名前 5 特征因子是:
基本每股收益,处 置 固 定 资 产 、无形资产
和其他长期资产收回的现金净额,截止日期,营业外支出
。(完整 30 个特征请参
考结论)
对于问题二和问题三,我们用深度学习模型代替了传统的机器学习模型,我
们以多层感知机,多层残差网络,Cross 网络作为子网络构建了(Deep-Cross-
Residual-NetWork,DCRN)网络模型。子网络完成特征的交叉组合,全连接层实
现逻辑回归的二分类功能。其中多层残差网络通过短路操作解决梯度消失问题,
Cross 网络通过类似外积的运算来进一步增加特征之间的交互力度。此外,我们
还在引入了 Batch Normalize 层,起到了加速模型收敛,防止梯度消失与爆炸,
缓解过拟合等作用。最后,我们在 DCRN 模型的基础上进行 Bagging 集成,进一
步降低模型的方差(Variance),从而提高模型的泛化能力。 在模型训练过程中,
我们还引入 Dropout 机制与提前停止算法防止出现过拟合。最终我们的
Bagging+DCRN 集成模型(制造业)的 AUC 得分为 77.5%,高于所有单独的机
器学习模型,可见我们的验证集效果好,稳定性高。最后计算出
第六年有
25
家
制造业
公司
财务数据造假
,股票代码是 83794
、
514041
、
555697
、
956053
、
1094620
、
1165233
、
1243285
、
1826967
、
2148234
、
2284030
、
2391741
、
2416850
、
2572928
、
3000725
、
3267677
、
3912940
、
4095867
、
4354943
、
4527346
、
4569042
、
4728764
、
4830755
、
4941663
、
4961537
、
4974017
。第六年有
15
家其他行业
公司
财务数据
造假
,股票代码是 2437163
、
3363628
、
3640933
、
4245500
、
4357417
、
4537462
、
4840667
、
2399070
、
1633079
、
2040254
、
2839457
、
3058236
、
3473078
、
4570965
、
4923064
。
本文使用了机器学习算法挑选特征,融合多种深度学习算法模型建立了
Baggin+DCRN 集成学习模型,效果优良,具有较高的参考价值和实际意义。
关键词:
机器学习 财务造假 Bagging+DCRN 集成学习 Batch Normalize
5 6
1. !"......................................................................................................................... 1
1.1 #$%&......................................................................................................... 1
1.2 #$'(......................................................................................................... 1
1.3 )*+,......................................................................................................... 1
1.4 -./0123 .......................................................................................... 2
1.4.1 45/678...................................................................................... 2
1.4.2 9:;<.............................................................................................. 2
1.4.3 =>?@.............................................................................................. 2
1.5 =>AB......................................................................................................... 3
1.6 CDEF......................................................................................................... 3
2. 8"%&................................................................................................................. 3
2.1 GH/IJKL............................................................................................. 3
2.2 MN=>......................................................................................................... 4
2.2.1 Decision Tree ........................................................................................ 4
2.2.2 Random Forest ...................................................................................... 5
2.2.3 Extra Trees ............................................................................................ 7
2.2.4 XGBoost ............................................................................................... 8
2.2.5 KNN ...................................................................................................... 9
2.2.6 Logistic Regression ............................................................................... 9
2.2.7 LightGBM ........................................................................................... 11
2.2.8 AdaBoost ............................................................................................. 12
3. 45678O#$P/)*................................................................................. 15
3.1 45QR....................................................................................................... 15
3.2 4578....................................................................................................... 16
3.2.1 STU/78.................................................................................... 16
3.2.2 45VWX........................................................................................ 17
3.2.3 SMOTE 7845YZ[ .................................................................. 17
3.3 \?=>....................................................................................................... 18
3.3.1 ]^_`ab_/cd.................................................................... 18
3.3.2 =>efgV.................................................................................... 19
3.4 =>h4ij............................................................................................... 19
3.4.1 h4jXKLOkN........................................................................ 19
3.4.2 =>h4ijlm............................................................................ 20
3.5 #$P/9:;<....................................................................................... 22
3.5.1 nop/9:.................................................................................... 22
3.5.2 qrsp/9:................................................................................ 25
3.5.3 nop9:tqrsp9:/uv................................................ 28
4. wx Bagging tyz{|/#$}t#$~/)* ......................................... 31
4.1 =>•€....................................................................................................... 31
4.1.1 •{|‚;<.................................................................................... 31
4.1.2 =>•€ƒ„.................................................................................. 37
4.2 =>…†X‡ˆ‰Š€............................................................................... 40
4.2.1 Dropout ............................................................................................... 40
4.2.2 ‹Œ•Ž(Early Stopping) ................................................................. 42
4.3 =>h4jX............................................................................................... 44
4.3.1 h4ijkN;<............................................................................ 44
4.3.2 ih‰•Olm................................................................................ 46
4.4 6alm....................................................................................................... 48
4.3.1 #$}•‘’nopGH“”•–45oA6alm................ 48
4.3.2 #$~•‘’qrspGH“”•–45oA6alm............ 50
5. —l....................................................................................................................... 51
h˜™š...................................................................................................................... 52
›œ.............................................................................................................................. 54
7 5 6
图
1
总体流程综述图
........................................................................................... 2
图
2
随机森林示意图
........................................................................................... 6
图
3
逻辑回归分布函数
..................................................................................... 10
图
4 Level-Wise
生长策略示意图
..................................................................... 12
图
5 Leaf-Wise
生长策略演示
........................................................................... 12
图
6 AdaBoost
算法演示步骤一
........................................................................ 13
图
7 AdaBoost
算法演示步骤二
........................................................................ 13
图
8
各行业上市公司数量统计图
..................................................................... 15
图
9 Flag
标签分布统计图
................................................................................. 16
图
10 SMOTE
采样示意图
................................................................................ 18
图
11
制造业上市公司财务数据造假影响因子前三十
................................... 24
图
12
其他行业上市公司财务数据造假影响因子前三十
............................... 26
图
13
制造业和其他行业特征因子异同统计饼状图
....................................... 28
图
14
制造业和其他行业相同特征权重对比图
............................................... 29
图
15
制造业和其他行业相同的特征
............................................................... 29
图
16
制造业独有的特征
................................................................................... 30
图
17
其他行业独有的特征
............................................................................... 30
图
18
多层感知机分类器架构示意图
............................................................... 32
图
19
残差单元的具体结构
............................................................................... 33
图
20
多层残差网络分类器示意图
................................................................... 34
图
21
交叉层的操作
........................................................................................... 35
图
22 Cross
神经网络分类器示意图
................................................................. 35
图
23
综合网络架构图
....................................................................................... 37
图
24 Bagging+DCRN
集成学习示意图
........................................................... 39
图
25
子网络集成示意图
................................................................................... 40
图
26
在使用
Dropout
的前馈网络中前向传播的示例
................................... 41
图
27
两个输入单元,两个隐藏单元的隐藏层及一个输出单元的前馈网络示
意图
............................................................................................................. 42
图
28
学习曲线显示负对数似然损失随时间变化
........................................... 43
图
29
基于贪心算法的超参数搜素
................................................................... 45
图
30
制造业的
ROC
曲线图
............................................................................ 47
图
31
其他行业的
ROC
曲线图
........................................................................ 48
图
32
第六年制造业财务数据造假的上市公司股票代码
............................... 49
图
33
第六年制造业的财务造假公司数量和未造假公司数量统计
............... 49
图
34
第六年其他行业财务数据造假的上市公司股票代码
........................... 50
图
35
第六年其他行业的财务造假公司数量和未造假公司数量统计
........... 50
图
36
决策树算法的制造业公司财务数据造假特征权重值前
30 .................. 54
图
37
随机森林计算的制造业公司财务数据造假特征权重值前
30 .............. 55
图
38
极度提升树计算的制造业公司财务数据造假特征权重值前
30 .......... 55
图
39 XGBoost
计算的制造业公司财务数据造假特征权重值前
30 .............. 56
图
40
决策树计算的其他行业公司财务数据造假特征权重值前
30 .............. 58
图
41
随机森林计算的其他行业公司财务数据造假特征权重值前
30 .......... 59
图
42
极度提升树计算的其他行业公司财务数据造假特征权重值前
30 ...... 59
图
43 XGBoost
计算的其他行业公司财务数据造假特征权重值前
30 .......... 60
8 5 6
表
1
符号说明表
................................................................................................... 3
表
2 SMOTE
采样后的数据在各模型中的训练效果评价
.............................. 18
表
3
附件
2
数据划分表
..................................................................................... 19
表
4 Decision Tree
模型调参结果表
................................................................. 20
表
5 Random Forest
模型调参结果表
.............................................................. 20
表
6 XGBoost
模型调参结果表
......................................................................... 21
表
7 KNN
模型调参结果表
............................................................................... 21
表
8 Logistic Regression
模型调参结果表
....................................................... 22
表
9
不同模型计算的制造业公司财务造假影响较大的前
30
个特征
........... 22
表
10
不同模型计算的其他行业公司财务造假影响较大的前
30
个特征
..... 27
表
11 Bagging
算法
............................................................................................. 38
表
12 Bagging+DCRN
集成学习模型评价
....................................................... 40
表
13
提前终止元算法
....................................................................................... 43
表
14
制造业数据训练模型参数调优过程
....................................................... 46
表
15
其他行业数据训练模型参数调优过程
................................................... 47
表
16
制造业公司数据造假不同算法计算出的特征因子重复情况统计
....... 56
1
1.
9:
1.1
#$%&
随着我国经济的快速发展,证券市场不断扩容,不同行业、不同规模的上市
公司不断增加,目前上市公司的数量已超过 4000 家。然而,近年来不时出现上
市公司财务数据造假及暴雷的情况,2020 年还出现了流动性危机及信用债违约
等问题。这些问题的出现无疑给相关的监管部门的工作带来了巨大的挑战,也对
我国证券市场的健康发展产生了负面影响,因此对上市公司进行有效监控迫在眉
睫。
建立健全的退市机制是中国资本市场的必经之路。近年来,监管部门已加大
了监管力度,对于出现严重财务数据造假、丧失持续经营能力的上市公司,强制
退市是唯一的选项。然而上市公司的退市必定会给投资者带来损失,因此投资者
在选择投资品种时,有必要对上市公司的财务数据进行深入的分析研究。对专业
投资者来说,研究一家上市公司的财务数据是否稳健,需要考虑相关的诸多因素。
面对上市公司多年的财务数据报告,筛选数据指标进行跟踪分析和研究,识别真
伪,避免投资踩雷,如何建立评估标准,判断企业真实财务情况,做出合理投资
选择。让投资收益更加稳健,将是研究者挖掘的主要目标。
1.2
#$'(
1. 根据附件 1 的行业分类,利用附件 2 所提供的相关上市公司的财务数据,
确定出各行业与财务数据造假相关的数据指标,并分析比较不同行业上市公司相
关数据指标的异同。
2. 根据附件 2 中制造业各上市公司的财务数据,确定出第 6 年财务数据造
假的上市公司。
3. 根据附件 2 中其他(除制造业外)各行业上市公司的财务数据,确定出第
6 年财务数据造假的上市公司。
1.3
)*+,
上市公司发行的股票在我国的证券市场中占据了很大的市场份额,对于有投
资理财需求的财团和散户,股票都是一个重要的投资场所。不过由于我国的金融