没有合适的资源?快使用搜索试试~ 我知道了~
20220524-德邦证券-金工机器学习专题之五:基于模型池的机器学习选股1
需积分: 0 2 下载量 123 浏览量
2022-08-03
22:24:03
上传
评论
收藏 2.17MB PDF 举报
温馨提示
试读
21页
1.前言42. 方法 42.1. 构建因子库 42.2. 因子筛选 42.2.1. 筛选因子的模型 52.2.2. 筛选频率 52.2.3. 因子预筛选 52.
资源推荐
资源详情
资源评论
请务必阅读正文之后的信息披露和法律声明
[Table_Main]
证券研究报告 | 金融工程专题
深度报告
金融工程专题
2022 年 5 月 24 日
金融工程专题
证券分析师
肖承志
资格编号:S0120521080003
邮箱:xiaocz@tebon.com.cn
研究助理
王成煜
邮箱:wangcy3@tebon.com.cn
相关研究
1. 《动态因子筛选——德邦金工机
器学习专题之四》2022.03.09
2. 《基于财务与风格因子的机器学
习选股——德邦金工机器学习专
题之三》 2022.01.25
3. 《机器学习残差因子表现归因—
—德邦金工机器学习专题之二》
2021.11.24
4. 《利用机器学习捕捉因子的非线
性效应——德邦金工机器学习专
题之一》 2021.10.18
基于模型池的机器学习选股
——德邦金工机器学习专题之五
[Table_Summary]
投资要点:
本文描述一种基于动态因子、模型筛选的量化投资方法。我们采用验证集数据打
分的方式既对训练模型的因子进行筛选,也对集成模型中使用的模型进行筛选,
从而尽可能使用最可能有效的因子和模型。
通过因子预筛选机制和模型的选用来加速因子筛选的过程。我们选用 LGBM 模型
进行拟合和预测,并且根据模型在训练集给出的特征重要性排除一部分因子,这
相对于我们在上一期提到的基于随机森林模型的筛选方法大幅度提高了效率。
维护一个动态扩大的模型池。每当训练一个新的机器学习模型,我们就将这个模
型添加到模型池中。我们持续地观测模型池中各个模型的表现。
不必在每次横截面选股时都进行模型训练。用机器学习模型进行横截面选股时,
不必每期重训练模型或新训练模型,而可以多加利用曾经训练的模型。这既可以
在保持模型表现的基础上节约大量的运算。实际上,根据我们的回测,每月训练
模型的表现并不如每个季度训练模型的表现。
单个模型的有效性通常存在轮动效应。单个模型通常在刚训练的时刻比较有效,
但其有效性会随着时间衰减而逐渐失效,另一方面,一个一度失效的模型可能在
未来重新变得有效,这往往是由市场风格、因子轮动效应导致的。
长记忆模型池优于短记忆模型池。开始训练模型的时间点越早,则模型池的规模
越大,并且模型池整体对更长时间的市场状态有记忆,一般而言,这样的模型池
的整体表现更优。
筛选近期表现良好的模型加以使用。以最近数月的数据为验证集,对模型池中的
所有模型进行评价,筛选评价最高的一批模型参与构建集成模型。经验证,在过
去一年中稳定有效的模型有更大的概率在未来更加有效。
众多模型的预测值的相关系数较低。我们考察了模型池中所有模型在横截面上的
预测值之间的相关系数的概率密度分布,总体上相关系数不高,这有利于构造更
好的集成模型。
我们对涉及到的几个主要参数和模型类型进行了敏感性分析。通过对比各参数发
现模型对训练频率、验证集时间长度和模型种类的敏感性低。
因子在全市场和市值偏小的股票池中表现良好。本文构造因子阶段,以全市场的
RankIC 为目标函数,因子在全市场与中证 1000 指数成分内表现良好,而在中证
800 内的多头收益尚且不高。
风险提示:市场风格变化风险,模型失效风险,数据可用性风险
金融工程专题
2 / 21 请务必阅读正文之后的信息披露和法律声明
内容目录
1. 前言 ............................................................................................................................ 4
2. 方法 ............................................................................................................................ 4
2.1. 构建因子库 ........................................................................................................ 4
2.2. 因子筛选 ........................................................................................................... 4
2.2.1. 筛选因子的模型 ....................................................................................... 5
2.2.2. 筛选频率 ................................................................................................. 5
2.2.3. 因子预筛选 .............................................................................................. 5
2.2.4. 因子边际筛选 .......................................................................................... 5
2.3. 预测模型 ........................................................................................................... 6
2.3.1. 构建模型池 .............................................................................................. 6
2.3.2. 模型筛选 ................................................................................................. 7
2.3.3. 机器学习因子 .......................................................................................... 7
2.3.4. 机器学习反转因子 ................................................................................... 7
2.3.5. 复合因子 ................................................................................................. 8
3. 结果 ............................................................................................................................ 8
3.1. 因子筛选结果 .................................................................................................... 8
3.2. 模型有效性跟踪 ................................................................................................. 9
3.3. 长记忆、短记忆的模型池对比 ............................................................................ 9
3.4. 模型训练频率的影响 ........................................................................................ 10
3.5. 验证集时间长度的影响 .................................................................................... 11
3.6. 各类模型对比 .................................................................................................. 11
3.7. 验证集表现与样本外表现的相关性 ................................................................... 12
3.8. 多模型的异质性 ............................................................................................... 13
3.9. 三类机器学习因子对比 .................................................................................... 13
3.10. 多模型集成 .................................................................................................... 14
4. 结论 .......................................................................................................................... 17
5. 附录 .......................................................................................................................... 19
6. 风险提示 ................................................................................................................... 20
信息披露 ....................................................................................................................... 21
aVbWjWfV9YjZaZpWvX9YvVcViY8OaOaQoMpPoMpNlOqQmReRtRqP6MoOoQxNsPrPNZoPnQ
金融工程专题
3 / 21 请务必阅读正文之后的信息披露和法律声明
图表目录
图 1:因子筛选流程 ........................................................................................................ 6
图 2:LGBM 模型的验证集 RankIC 分年度平均值 .......................................................... 8
图 3:四个不同时期训练的模型的有效性跟踪 .................................................................. 9
图 4:长记忆模型的因子 RankIC .................................................................................. 10
图 5:短记忆模型的因子 RankIC .................................................................................. 10
图 6:不同训练频率的累积 RankIC 曲线 ....................................................................... 10
图 7:不同训练频率的累积平均 RankIC 和 Rank ICIR .................................................. 10
图 8:不同验证集长度的累积 RankIC 曲线 ....................................................................11
图 9:不同验证集长度的累积平均 RankIC 和 Rank ICIR ................................................11
图 10:不同模型的累积 RankIC 曲线 .............................................................................11
图 11:验证集平均 RankIC 与样本外 RankIC 的相关系数 ............................................. 12
图 12:所有模型横截面预测值的相关系数的概率密度 ................................................... 13
图 13:机器学习因子的 RankIC .................................................................................... 13
图 14:机器学习反转因子的 RankIC ............................................................................. 13
图 15:复合因子的 RankIC ........................................................................................... 14
图 16:全市场 RankIC .................................................................................................. 14
图 17:沪深 300 指数成分内 RankIC ............................................................................ 14
图 18:中证 500 指数成分内的 RankIC ......................................................................... 14
图 19:中证 1000 指数成分内的 RankIC ....................................................................... 14
图 20:全市场分十组回测结果 ...................................................................................... 15
图 21:中证 1000 指数成分的分五组回测 ...................................................................... 16
图 22:中证 1000 指数成分组 5 超额收益归因 ............................................................... 17
表 1:全市场分十组分组回测表现 ................................................................................. 15
表 3:中证 1000 分五组回测结果 .................................................................................. 17
表 3:因子筛选结果 ...................................................................................................... 19
金融工程专题
4 / 21 请务必阅读正文之后的信息披露和法律声明
1. 前言
我们在上一期研报《动态因子筛选——德邦金工机器学习专题之四》中介绍
了一种在每个季度动态筛选有效的基本面因子,再使用机器学习模型合成因子的
方法。本文关注的重点是其中的第二步,即通过机器学习模型合成因子的过程,
因此这一步对结果也有至关重要的影响。
一种常见的做法是,在每次选股前,利用过去一段时间的历史数据训练机器
学习模型,然后用新获得的模型做预测和选股,然而,这或许是一种思维定式。
实际上,更早的数据以及过去训练的模型未必是没有价值的,因为市场的风格、
回报的异象、因子的收益率都可能存在轮动效应,曾经失效的风格、异象可能在
未来回归。因此,我们需要持续地监控所有训练过的模型的表现,并系统化地筛
选和运用它们。
在本文中,我们首先简单回顾动态因子筛选的方法,并从运算效率的角度对
这种方法做出一些改进,随后,本文将重点讨论如何维护一个机器学习模型池,
如何新增、评价、筛选和使用池中的机器学习模型。
2. 方法
2.1. 构建因子库
量化投资者通常会维护一个因子库,因子库中通常有成百上千种因子,对于
某些机构而言可能数量更多。一般而言,因子库中有效因子数量越多、噪音因子
的数量越少,则因子库的质量越高。在构建因子库的阶段,要减少噪音因子,即
尽可能地排除在历史上未曾出现过横截面异象的因子。因此,得以入库的因子通
常是信号因子,这类因子在历史上的某个阶段出现过横截面异象,但这种横截面
异象可能在另一些历史阶段、甚至当前的阶段并不存在。
我们当前构建的因子库包括 CNE5 中的十个风格因子以及根据利润表、资产
负债表和现金流量表的项目计算的因子。采用式(1)的中位数去极值的方法去
除极端值。
(1)
其中,是任意一个财务因子的值,
是因子值在横截面上的中位数,是序列
的中位数,是一个参数,本文中取 3,而为去极值后的结果。对于所有
的空值,将其填充为横截面上的中位数。
2.2. 因子筛选
因子筛选有两方面的作用:第一,尽可能排除当前无效或规律反转的因子;
第二,相比于用上因子库中全部因子的做法,显著降低模型的过拟合风险、复杂
度和运算时间。本文使用的因子筛选方法很大程度上和《动态因子筛选——德邦
金工机器学习专题之四》中提出的方法相同,出于效率的考虑,改变了使用的模
型和筛选频率,并添加了预筛选机制。
金融工程专题
5 / 21 请务必阅读正文之后的信息披露和法律声明
2.2.1. 筛选因子的模型
我们使用 LGBM 模型,相比于上一期研报《动态因子筛选——德邦金工机器
学习专题之四》中使用的随机森林模型,运算速度得到了大幅度的提升,而筛选
效果依然良好。另一方面,我们依然使用基于 CNE5 风格因子的残差收益率作为
预测目标的来源。我们将相邻两个月的所有股票回报记为
,将前一个截止日
期的风格因子和常数列记为
,首先 WLS 回归股票收益率,权重为股票总市
值的平方根:
(2)
我们以残差收益率
为模型的预测目标。
2.2.2. 筛选频率
我们定期基于因子库进行因子筛选,我们约定每隔一定数量(
)个月进行
一次筛选,其中参数
可以按需选取。入选的因子将被作为机器学习模型的输入。
然而,训练模型的频率不必等于筛选因子的频率,我们规定每
个月训练一批
新的机器学习模型。
2.2.3. 因子预筛选
我们采用基于树模型的 LGBM 来进行因子筛选,基于训练集数据,模型可以
评价各个因子的特征重要性。简单来说,更加重要的因子对于训练集上的拟合结
果的影响更大,而重要性低的因子对于拟合结果的影响小。
我们并不认为在训练集上特征重要性最高的因子就是最重要的因子,一方面,
高的特征重要性可能来源于偶然因素,例如训练集数据过拟合,另一方面,如果
一个因子的规律并不稳定,那么高的特征重要性也没有指导投资的价值。
然而,我们却可以利用特征重要性排除一些大概率不能发挥作用的因子,这
是因为,如果一个因子在训练集上尚不能体现出与拟合目标的相关性,那么这个
因子大概率属于噪音因子。我们排除训练集中特征重要性很低的因子,在接下来
的 2.2.4 节中的因子边际筛选过程中不再考虑这些因子,这能在很大程度上加快
边际筛选的效率。
2.2.4. 因子边际筛选
我们采用边际筛选的方式从因子库中逐个筛选有效的因子加入当前因子池。
在每次筛选的起点,我们将 CNE5 的十个风格因子作为初始因子池,遍历因子库
中所有的因子,评价各个因子的边际贡献,挑选边际贡献最高的因子入选因子池。
接下来重复这一过程,逐个在边际上筛选最有效的因子。
我们采用训练集——验证集来评价整个因子池的质量,验证集为最近
(本
文中取 12)个月的数据,而训练集为验证集之前的
(本文中取 48)个月的数
据。我们首先使用训练集的数据和 LGBM 模型,拟合训练集输入
、输出
之
间的关系;再将该模型作用于验证集的输入
,得到验证集的预测值
,将验证
剩余20页未读,继续阅读
资源评论
白绍伟
- 粉丝: 13
- 资源: 287
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功