没有合适的资源?快使用搜索试试~ 我知道了~
中信建投_0202_大数据人工智能研究之六:机器学习因子有效性分析.pdf
需积分: 0 1 下载量 164 浏览量
2023-07-28
12:22:41
上传
评论
收藏 795KB PDF 举报
温馨提示
试读
22页
中信建投_0202_大数据人工智能研究之六:机器学习因子有效性分析.pdf
资源推荐
资源详情
资源评论
C H I N A S E C U R I T I E S R E S E A R C H
HTTP://RESEARCH.CSC.COM.CN
请参阅最后一页的重要声明
[table_main]
金融工程专题报告模板
证券研究报告·金融工程深度报告
机器学习因子有效性分析:
——大数据人工智能研究之六
重要观点
逻辑依旧明了,机器学习并非黑箱
谈到机器学习,大家最忌讳的便是黑箱问题。其实不必,理解机
器学习算法,逻辑实则简单,比如相同的因子特征将会有相同的
表现。在实战中,我们发现,该逻辑十分有效,在我们的机器学
习选股模型中,该逻辑连续十几年不曾被打破。
Adaboost 最稳定,朴素贝叶斯收益最高
全市场选股,市值中性选股等权加权,行业中性选股等权加权五
种情况下,AdaBoost 年化波动率基本在 5%左右,表现非常稳定。
朴素贝叶斯,年化收益分别达到 15.50%,15.75%,12.89%,
15.63%,10.23%。
全市场训练明显优于市值中性或行业中性
分别在全市场、等市值组(按市值大小分 20 小组)、行业内部进
行了训练预测。研究发现,在市值中性情况下,全市场训练得到
的因子明显优于市值内部训练的因子;在行业中性情况下,全市
场训练得到的因子亦优于行业内部训练得到的因子。
机器学习因子单调性十分显著
把机器学习训练得到的个股相对强势值进行排序,按大小分成 5
组,研究发现排名靠前的小组明显优于排名靠后的小组,且单调
性十分显著。20090105 到 20171231,前二组年化收益在 25%以
上,而第四组收益不到 20%,最后一组收益不到 10%。
人工智能有比较快速的自适应调整能力
20090105 到 20171231 期间,任何一年的月度平均 IC 均大于 0,
且近一半的年份平均 IC 大于 8%,期间所有月度平均 IC为 5.78%。
虽然 IC 有负的情况,但在动态的训练中,人工智能模型能够快
速的调整以适应市场。以 2017 年为例,前几个月 IC 几乎为负,
但在后半年,模型迅速反应,IC 基本为本。
人工智能选股模型策略(Logistic 为例)
以传统因子滚动 12 个月值为特征值,个股下一期按收益大小排
序,排名前 30%作为强势股,排名靠后 30%作为弱势股。用机器
学习算法进行训练预测。用当期因子作为输入,预测未来一个月
个股相对走势的强弱。根据个股的相对强势,我们把排名靠前
20%的作为多头,排名后 20%的作为空头进行了研究,样本外
20090105 到 20171231 期间,行业中性等权年化多空收益差为
16.45%,年化波动率为 7.34%,最大回撤为 10.84%。
金融工程研究
[table_invest]
丁鲁明
dingluming@csc.com.cn
021-68821623
执业证书编号:
S1440515020001
研究助理:喻银尤
yuyinyou@csc.com.cn
021-68821600-808
发布日期:
2018 年 02 月 02 日
市场表现
[table_indextrend]
相关研究报告
[table_report]
17.10.18
大数据研究之五:大数据、机器学习、
深度学习在投资领域应用的方法论概述
17.08.16
大数据研究之四:基于新闻热度的周期、
成长、消费风格轮动配置
17.03.08
大数据研究之三:新闻情绪选股的多空
差策略
17.03.02
大数据研究之指标构建:机器学习之贝
叶斯文本分类算法的实现
16.10.12
大数据研究体系之择时篇:基于新闻热
度的多空策略
1
HTTP://RESEARCH.CSC.COM.CN
金融工程研究
金融工程专题报告
请参阅最后一页的重要声明
目录
一、人工智能与量化投资 ....................................................................................................................................... 4
1.1 相关分类算法概述 .................................................................................................................................... 4
1.2 各分类算法的是与非 ................................................................................................................................ 6
二、策略概述 ........................................................................................................................................................... 8
2.1 机器学习因子构建 .................................................................................................................................... 8
2.2 策略计算 .................................................................................................................................................... 9
三、AdaBoost、knn 最稳定,Bayes 表现最好 ...................................................................................................... 9
四、人工智能有比较快速的自适应调整能力 ..................................................................................................... 12
五、全市场训练明显优于市值中性或行业中性 ................................................................................................. 14
六、机器学习因子相关性较高 ............................................................................................................................. 15
七、机器学习因子单调性十分显著 ..................................................................................................................... 16
八、总结 ................................................................................................................................................................. 17
2
HTTP://RESEARCH.CSC.COM.CN
金融工程研究
金融工程专题报告
请参阅最后一页的重要声明
图目录
图 1:logistic 多空收益差净值 ...................................................................................................................... 10
图 2:knn 多空收益差净值 ........................................................................................................................... 10
图 3:AdaBoost 多空收益差净值 ................................................................................................................. 10
图 4:svm 多空收益差净值 ........................................................................................................................... 10
图 5:Nbayes 多空收益差净值 ..................................................................................................................... 10
图 6:随机森林多空收益差净值 .................................................................................................................. 10
图 7:决策树多空收益差净值 .......................................................................................................................11
图 8:logistic 因子各年度月 IC 均值 ............................................................................................................ 13
图 9:knn 因子各年度月 IC 均值 ................................................................................................................. 13
图 10:AdaBoost 因子各年度月 IC 均值...................................................................................................... 13
图 11:svm 因子各年度月 IC 均值 ............................................................................................................... 13
图 12:Nbayes 因子各年度月 IC 均值 ......................................................................................................... 13
图 13:随机森林因子各年度月 IC 均值....................................................................................................... 13
图 14:决策树因子各年度月 IC 均值 .......................................................................................................... 14
图 15:logistic 市值中性等权,月度 IC ....................................................................................................... 14
图 16:logistic 行业中性等权多空收益差净值 ............................................................................................ 14
图 17:logistic 行业中性加权多空收益差净值 ............................................................................................ 14
图 18:logistic 市值中性等权多空收益差净值 ............................................................................................ 15
图 19:logistic 市值中性加权多空收益差净值 ............................................................................................ 15
图 20:logistic 因子各组累积净值 ................................................................................................................ 17
3
HTTP://RESEARCH.CSC.COM.CN
金融工程研究
金融工程专题报告
请参阅最后一页的重要声明
表目录
表 1:logistic 策略结果统计 ...........................................................................................................................11
表 2:knn 策略结果统计 ................................................................................................................................11
表 3:AdaBoost 策略结果统计 ......................................................................................................................11
表 4:svm 策略结果统计 ................................................................................................................................11
表 5:Nbayes 策略结果统计 ......................................................................................................................... 12
表 6:随机森林策略结果统计 ...................................................................................................................... 12
表 7:决策树策略结果统计 .......................................................................................................................... 12
表 8:相关系数矩阵 ...................................................................................................................................... 16
表 9:协方差矩阵 .......................................................................................................................................... 16
表 10:logistic 机器学习因子各组年化收益 ................................................................................................ 17
4
HTTP://RESEARCH.CSC.COM.CN
金融工程研究
金融工程专题报告
请参阅最后一页的重要声明
一、人工智能与量化投资
人工智能从自诞生以来,理论和技术日益成熟,应用领域也不断扩大,金融领域也是将其改革的一大领域。
谈到人工智能机器学习,大家最忌讳的便是黑箱问题,其实不必,理解机器学习算法,逻辑实则简单,比如相
同的因子特征将会有相同的表现,以此简单的逻辑,我们实证中发现效果比较显著。人工智能机器人将能够自
动生成研究报告替代分析师,发明策略替代主动基金经理进行投资等等,虽然这些目前来说不太普及,不是很
成熟,但机器学习人工智能作为工具,为我们提高工作效率是毫无疑问的,并且随着技术的发展,金融领域将
可能迎来颠覆性的改革。
人工智能时代正在到来,这种颠覆性的改变将为金融行业带来巨变。传统量化投资主要包括量化选股、量
化择时、股指期货套利、商品期货套利、统计套利、算法交易,资产配置,风险控制等。传统的量化投资研究
的数据来源一般是公司的财务指标、交易行情数据、政策宏观方面的投资信息等。而随着量化投资这一领域的
快速发展,这些传统数据中所包括的大部分投资信息已经被专业投资者所挖掘,想要从这些信息中获取收益难
度将越来越大。以此,人工智能机器学习将为我们带来曙光,我们情况下,机器学习分以下几大类:分类分析:
分类分析是首先从已有的数据中选出已有的分类,且把所有的没有分类的要进行分类的数据按照这些已规定好
类别分别进行分类。分类问题属于预测性的问题的分析,此处分类问题与普通预测问题的最重要的区别在于其
预测的结果是类别(比如 M、N、L 三类等)而不是一个具体的数值(如 10、90、150 等);聚类分析:聚类
分类不属于预测性的问题,该算法主要解决的是把一群给定的对象划分成若干个组的问题。划分样本的依据是
聚类问题的核心点。聚类分析主要是解决当要分析的数据缺乏描述信息或者是无法组织成任何分类模式时用于
样本的聚类分析[17]。 通常并不需要使用训练数据进行学习,这在 Machine Learning 中被称作 unsupervised
learning (无监督学习);关联分析:关联分析中主要是技术是对象相关度或者他们之间的关系。关系或者规则是
用一些最小置信度,它们的级别来描述的,统计学中,其级别度量了关联规则的相关弱与强。强度越大,则两
对象的相关性越强;预测分析:此处说的预测问题指的是狭义的预测,并不包含前面阐述的分类问题,因为分
类问题也属于预测[19]。一般来说我们谈预测问题主要指预测变量的取值为连续数值型的情况;深度学习:深度
学习是模拟大脑皮层的 Hubel-Wiesel(两个人名研究视皮层)模型,采用一层层“抽象化”的方式来对数据或
者信号进行表达。类似于大脑皮层对图像的分辨,深度学习模型首先从原始信号(类似于人脸识别系统中的像
素)中分离出低层的特征(类似人脸识别系统中物体的边),然后从低层特征中获取高一层的特征(类似于人脸
识别系统中由边组成的轮廓),然后获得更高一层的表达(类似人脸识别中的人脸),最后在高层特征上建立起
分类器,获得模型的预测输出。
1.1 相关分类算法概述
本文主要尝试分类算法在投资中的运用,所以在此把文中涉及的分类算法都进行简单介绍,但本文重点不
是算法本身,详细推理及内容请查阅相关论文。
1) Logistic
Logistic 回归是研究二分类观察结果
y
与一些影响因素
12
( , ,..., )
n
x x x
之间关系的一种多变量分析方法。
通常的问题是,研究某些因素条件下某个结果是否发生。根据线性回归可以预测连续的值,对于分类
问题,我们需要输出 0 或者 1。所以,在分类模型中需要将连续值转换为离散值。我们可以预测: 当
h
剩余21页未读,继续阅读
资源评论
qq_41146932
- 粉丝: 9
- 资源: 6308
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Java的本科探索学习项目设计源码 - 本科探索
- 基于Javascript和Python的微商城项目设计源码 - MicroMall
- 基于Java的网上订餐系统设计源码 - online ordering system
- 基于Javascript的超级美眉网络资源管理应用模块设计源码
- 基于Typescript和PHP的编程知识储备库设计源码 - study-php
- Screenshot_2024-05-28-11-40-58-177_com.tencent.mm.jpg
- 基于Dart的Flutter小提琴调音器APP设计源码 - violinhelper
- 基于JavaScript和CSS的随寻订购网页设计源码 - web-order
- 基于MATLAB的声纹识别系统设计源码 - VoiceprintRecognition
- 基于Java的微服务插件集合设计源码 - wsy-plugins
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功