【免费】20190617-华泰证券-华泰证券人工智能系列之二十二：基于CSCV框架的回测过拟合概率1资源-CSDN文库

需积分: 0 34 浏览量 2022-08-03 20:57:43 上传评论收藏 2.64MB PDF 举报

资源详情

资源评论

资源推荐

谨请参阅尾页重要声明及华泰证券股票和行业评级标准 1

证券研究报告

金工研究/深度研究

2019 年06 月17 日

林晓明

执业证书编号：S0570516010001

研究员

0755-82080134

[email protected]

陈烨

执业证书编号：S0570518080004

研究员

010-56793942

[email protected]

李子钰

0755-23987436

联系人

[email protected]

何康

021-28972039

联系人

[email protected]

1《金工: 桑土之防：结构化多因子风险模型》

2019.06

2《金工: 基于遗传规划的选股因子挖掘》

2019.06

3《金工: 华泰单因子测试之海量技术因子》

2019.05

基于 CSCV 框架的回测过拟合概率

华泰人工智能系列之二十二

基于 CSCV 框架计算三组量化研究案例的回测过拟合概率

本文基于组合对称交叉验证（CSCV）框架，以三组量化研究为案例展示

回测过拟合概率（PBO）的计算流程，发现两组多因子选股模型的 PBO

较低，择时模型的 PBO 较高。案例 1 为 7 种机器学习模型的多因子选股

策略，指数增强组合 PBO 大多在 15%~50%，“ XGBoost 表现最佳”的结

论大概率不是回测过拟合。案例 2 为 6 种交叉验证方法的多因子选股策略，

多空组合 PBO 在 20%~50%，“分组时序交叉验证表现最佳”的结论大概

率不是回测过拟合。案例 3 为双均线 50ETF 择时策略，PBO 在 50%~90%，

“参数组合[11,30]和[11,24]表现最佳”的结论可能为回测过拟合。

过拟合可分为两个层次：训练过拟合和回测过拟合

华泰人工智能系列多项研究探讨过拟合。过拟合可分为训练过拟合和回测

过拟合两个层次。训练过拟合是机器学习语境下偏狭义色彩的过拟合，是

指机器学习模型在训练集表现好，在测试集表现差，产生原因是模型超参

数选择不当或者模型过度训练，解决方案是采用合理的交叉验证方法选择

模型超参数或迭代次数。回测过拟合是量化研究语境下偏广义色彩的过拟

合，是指量化模型在回测阶段表现好，在实盘阶段表现差，产生原因是市

场规律发生变化，或者对回测期数据噪音的过度学习。回测过拟合难以根

除，相对合理的解决方案是借助量化指标检验回测过拟合程度。

核心思想是计算“训练集”夏普比率最高的策略在“测试集”的相对排名

CSCV 框架下回测过拟合概率的核心思想是：计算“训练集”夏普比率最

高的策略，在“测试集”中的相对排名，如果相对排名靠前，代表回测过

拟合概率较低，反之则代表回测过拟合概率较高。“训练集”和“测试集”

的划分基于组合的思想，将全部回测时间划分成 S 份，任取其中 S/2 份拼

接得到“训练集”，剩余 S/2 份拼接得到“测试集”，分别计算各条策略的

夏普比率，进而得到相对排名，并重复多次，将相对排名大于 50%即排在

后一半的概率视作回测过拟合概率。回测过拟合概率的计算相对简单，不

仅适用于机器学习策略，还能推广到其它类型的量化策略。

探讨回测过拟合概率计算过程中的各项细节

回测过拟合概率的计算过程中包含多项细节。将长度为 T 的全部回测时间

划分成 S 份，每份回测时间长度为 T/S。T/S 越小，组合次数越大，计算

时间开销越大；T/S 越大，组合次数越小，策略排名结果受偶然性因素影

响更大，实际使用时建议采用较小的 T/S 比。对策略进行排名时一般采用

夏普比率，也可以根据实际需要选择其它评价指标，例如本文的指数增强

组合采用信息比率进行排名更为合理。

风险提示：多因子选股和择时等量化模型都是对历史投资规律的挖掘，若

未来市场投资环境发生变化，则量化投资策略存在失效的可能。回测过拟

合概率是将历史回测表现的时间序列经过简单打乱重排计算得到，忽略回

测的路径依赖特性，存在过度简化的可能。

相关研究

21157447/36139/20190617 16:34

金工研究/深度研究 | 2019 年 06 月 17 日

谨请参阅尾页重要声明及华泰证券股票和行业评级标准 2

正文目录

研究背景 ........................................................................................................................... 4

回测过拟合概率................................................................................................................. 5

过拟合的两个层次：训练过拟合和回测过拟合 .......................................................... 5

回测过拟合概率 PBO 的定义 .................................................................................... 6

方法 ................................................................................................................................... 9

结果 ................................................................................................................................. 12

案例 1：基于不同机器学习算法的多因子选股模型 ................................................. 12

案例 2：基于不同交叉验证方法的多因子选股模型 ................................................. 13

案例 3：基于不同参数组合的 50ETF 双均线择时模型 ............................................ 14

总结与讨论 ...................................................................................................................... 16

附录 ................................................................................................................................. 17

案例 1 方法 .............................................................................................................. 17

案例 2 方法 .............................................................................................................. 19

参考文献 .................................................................................................................. 20

风险提示 ......................................................................................................................... 21

21157447/36139/20190617 16:34

金工研究/深度研究 | 2019 年 06 月 17 日

谨请参阅尾页重要声明及华泰证券股票和行业评级标准 3

图表目录

图表 1：训练过拟合示意图 ............................................................................................. 5

图表 2：回测过拟合示意图 ............................................................................................. 5

图表 3： PBO 计算框架中的回测过拟合示意图 ............................................................... 6

图表 4：基于 CSCV 框架的回测过拟合概率 PBO 计算示意图 ....................................... 7

图表 5：本文计算回测过拟合概率所使用的三组量化研究案例 ....................................... 9

图表 6： 7 组机器学习选股模型单因子分层回测多空组合净值 ........................................ 9

图表 7： 7 组机器学习选股模型单因子分层回测 Top 组合净值 ....................................... 9

图表 8： 7 组机器学习选股模型指数增强组合净值 .......................................................... 9

图表 9： 7 组机器学习选股模型指数增强组合超额收益净值 ........................................... 9

图表 10： 6 组交叉验证方法下逻辑回归单因子分层回测多空组合净值 ......................... 10

图表 11： 6 组交叉验证方法下 XGBoost 单因子分层回测多空组合净值 ....................... 10

图表 12： 7 种参数下 50ETF 双均线择时模型净值........................................................ 11

图表 13：训练集最优多空组合夏普比率在测试集相对排名分布 ................................... 12

图表 14：训练集最优 Top 组合夏普比率在测试集相对排名分布................................... 12

图表 15：训练集最优指数增强组合夏普比率在测试集相对排名分布 ............................ 13

图表 16：训练集最优指数增强组合信息比率在测试集相对排名分布 ............................ 13

图表 17：案例 1 不同 T/S 比下不同策略评价指标的回测过拟合概率 ........................... 13

图表 18：训练集最优逻辑回归多空夏普比率在测试集相对排名分布 ............................ 14

图表 19：训练集最优 XGBoost 多空夏普比率在测试集相对排名分布 .......................... 14

图表 20：案例 2 不同 T/S 比下逻辑回归和 XGBoost 多空组合的回测过拟合概率 ....... 14

图表 21：训练集 7 组参数下最优参数夏普比率在测试集相对排名分布 ........................ 14

图表 22：训练集 91 组参数下最优参数夏普比率在测试集相对排名分布 ...................... 14

图表 23：案例 3 不同 T/S 比下择时策略评价指标的回测过拟合概率 ........................... 15

图表 24：选股模型中涉及的全部因子及其描述 ............................................................ 18

图表 25： 6 种交叉验证方法示意图 ............................................................................... 19

21157447/36139/20190617 16:34

金工研究/深度研究 | 2019 年 06 月 17 日

谨请参阅尾页重要声明及华泰证券股票和行业评级标准 4

研究背景

回测（Backtesting）是量化策略研究中必不可少的环节，也是量化投资和传统主动投资的

重要区别之一。回测的本质是将某种可被精确刻画的投资策略，在历史中进行推演和复现，

通过该策略在历史上的表现，推测它在未来的表现，进而对多组策略加以取舍，形成最终

的投资决策。回测这一研究手段的前提假设是历史会在未来重演。

那么，历史会重演吗？这个问题恐怕没有人能回答。如果未来金融市场的规律发生改变，

那么历史回测表现好的投资策略，在未来可能变差。投资策略在未来表现弱于历史回测表

现的现象称为“回测过拟合”（Backtest Overfitting）。市场规律发生变化是回测过拟合的

原因之一。

如果市场规律不变，历史回测表现好的策略在未来表现就会好吗？如果投资策略在历史回

测表现好，仅仅源于捕捉到个别股票、个别因子或者个别时间段的极端收益，相当于捕捉

到数据中的噪音，那么该策略在未来表现很可能出现退化。模型对回测期数据噪音的过度

学习是回测过拟合的另一个原因。

平心而论，回测并不是“科学”的研究手段。和自然科学的研究相比，如果想要探究温度、

光照对植物光合作用的影响，那么可以采用控制变量法，控制其它影响因素不变，仅改变

温度或光照，比较实验组和对照组的反应产物含量并得出结论。然而，社会科学尤其是金

融领域的研究难以开展实验，很多时候只能基于历史挖掘规律。历史上的规律以及基于规

律开发的投资策略完全有可能由随机因素促成，就像是中彩票，相同的号码在未来会有多

少概率再次中奖呢？

尽管回测这一研究手段存在过拟合的风险，无法得出“科学”的研究结论，对于量化策略

开发者来说，它仍然是最好的研究工具之一。回测一定程度上反映了策略的优劣，在实践

中我们通常根据回测结果评估策略表现，或是比较不同策略的回测结果来选择模型或选择

参数组合。

此时，认识和测量回测过拟合的风险就显得尤为重要。在华泰金工《人工智能 19：重采

样技术检验过拟合》（ 20190422）中，我们借助 Bootstrap 重采样技术构建 A 股市场“平

行世界”，并提出两种回测过拟合概率的测量方法。本文我们将采用另一种思路，基于

Bailey、Borwein、López de Prado 和 Zhu 在 2017 年发表的论文《The Probability of

Backtest Overfitting》中提出的组合对称交叉验证（CSCV）框架，系统性地介绍回测过

拟合概率的测量方法，并且以实例展示不同类型量化策略的回测过拟合风险。

21157447/36139/20190617 16:34

剩余21页未读，继续阅读

评论收藏

内容反馈

SLHJ-Translator

粉丝: 28
资源: 297

20190617-华泰证券-华泰证券人工智能系列之二十二：基于CSCV框架的回测过拟合概率1

评论0

最新资源

20190617-华泰证券-华泰证券人工智能系列之二十二：基于CSCV框架的回测过拟合概率1

评论0

20190617-华泰证券-华泰人工智能系列之二十二：基于CSCV框架的回测过拟合概率1

回测过拟合的概率-研究论文

2019 CVPR_ICCV_CSCV_ 3D Human Pose Estimation PAPER

CSCV变电站自动化系统实用PPT课件.pptx

CSCV变电站自动化系统实用PPT学习教案.pptx

cscv452

水文频率计算适线软件

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

软件工程导论(第六版)课后习题答案1

goby红队&社区版-win-64-2.4.7

现代永磁同步电机控制原理及MATLAB仿真__袁雷编著1

OpenVAS离线资源

全面的安全基线核查清单

2023年最全最精简wifi密码字典(2.6G)

hackbar2.1.3-master安装包

CISP、NISP二级、CISE题库最新版（2024年1月更新）

Kali安装burpsuite专业版

UN R155 信息安全法规 中英文版

关于STM32F103C8T6芯片的一些重要引脚功能的整理1

LiqunKit-1.6.2

最新资源

UN R155 信息安全法规中英文版