【免费】机器学习时代的回测规程1资源-CSDN文库

需积分: 0 160 浏览量 2022-08-03 17:39:59 上传评论收藏 1.46MB PDF 举报

资源详情

资源评论

资源推荐

机器学习时代的回测规程

作者：石川，北京量信投资管理有限公司创始合伙人，清华大学学士、硕士，麻省理工学院

博士。知乎专栏：

https://zhuanlan.zhihu.com/mitcshi。

未经授权，严禁转载。

摘

要

在回测中牢记并遵守这些准则可以有效降低过拟合的风险、避开噪音、找到真

正在样本外可持续的因果关系，获取更高的收益。

让我们从下图这个令人欣喜的回测（backtesting）说起。

0

引言

原创：石川 5月23日川总写量化

没错，它正是 data mining 的产物。该因子的构建完全没有使用任何基本面或者交易数据，

而仅仅依赖美股上市公司股票代码上的字母。比如苹果公司的股票代码是 AAPL，该代码上的

第 1 至 4 位上的字母分别为 A、A、P 以及 L。该因子的构建方法是做多股票代码第三位字母

为 S 的股票、做空股票代码第三位字母为 U 的股票（记为 S(3) – U(3)）。

在实验中，考虑股票代码的前 3 位字母；考虑到全部可能的 26 个字母，以及每个字母可以出

现在多、空两头，因此实验中有成千上万种组合方式。而 S(3) – U(3) 这种组合正是从这些组

合中脱颖而出的、具备了上述五大优秀特征的、仅仅来自 data mining 的虚假策略。

上面这个策略是靠蛮力（brute force）找到的，并不能说是机器学习（Machine

Learning）的产物。机器学习会进行仔细的交叉验证（cross-validation）以确保我们在训练

集和测试集上看到相似的结果。不幸的是，上述策略在整个回测期内的稳定表现大概率会让它

通过交叉验证。这背后的原因是股票市场的数据容易出现路径依赖，造成训练集和测试集之间

并不独立。

这个例子说明，量化投资的小伙伴在回测基于机器学习的策略时将面临很大的挑战。回测的目

的是去伪存真，排除噪音、发现预测指标和资产收益率之间真正的因果关系，从而在样本外的

实盘交易中获得收益。如果回测不靠谱、落入各种陷阱，那么实盘的结果则可想而知。这个问

题在机器学习如此普及的今天显得更加严重。

为了帮助量化交易者更好的杜绝样本内的过拟合，提高发现真正有效策略的概率，三位大咖站

了出来：来自 Research Affiliates 的 Robert Arnott，杜克大学教授、前 AFA 主席

Campbell Harvey，以及诺贝尔经济学奖获得者 Harry Markowitz 在 IPR Journals 的最新

成员 Journal of Financial Data Science 的处女刊上发表了一篇题为 A Backtesting

Protocol in the Era of Machine Learning 的文章（Arnott, Harvey, and Markowitz

2019）。

本文中我用“规程”来对应 Protocol 一词，它也可以被译作“协议”或者“清单”，其目的就是通过

逐步遵循这些准则来减少样本内过拟合的可能性。这个 protocol 之于回测可靠性的作用就好

比飞行员的 checklist 之于飞行安全的作用。Arnott, Harvey, and Markowitz (2019) 一文

提出的 protocol 一共包括七部分，它们是：

剩余21页未读，继续阅读

评论0

内容反馈

黄浦江畔的夏先生

粉丝: 12
资源: 299

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip