没有合适的资源?快使用搜索试试~ 我知道了~
20140114-广发证券-另类交易策略之十三:基于统计语言模型(SLM)的择时交易研究1
试读
22页
需积分: 0 0 下载量 30 浏览量
更新于2022-08-04
收藏 882KB PDF 举报
在金融市场中,投资者一直探索各种方法以期望实现超越市场的收益。广发证券的研究报告《另类交易策略之十三:基于统计语言模型(SLM)的择时交易研究》提供了一个独特的视角,将自然语言处理(NLP)的理论应用于金融市场的交易策略中,开辟了量化投资的一个新天地。
自然语言处理作为计算机科学的一个分支,自20世纪50年代由计算机科学之父阿兰·图灵提出以来,经历了漫长的发展过程。早期的研究者尝试通过模拟人类思维过程来处理语言问题,而在近几十年中,研究的焦点逐渐转移到统计学方法上。统计语言模型(SLM)的出现,特别是其在语音识别领域的应用,为金融市场数据分析提供了新的工具。
报告中阐述了利用统计语言模型在金融市场进行择时交易的研究。该策略的核心是将股票市场的历史行情数据转化为涨跌符号序列,这类似于语言处理中的语料库。通过统计方法分析这些序列,投资者能够预测市场未来的走势,并据此作出买入或卖出的决策。
SLM在预测股市涨跌趋势方面显示出了巨大的潜力。研究团队通过选取特定时间段的数据进行建模,并使用其他时间段的数据进行模型的优化和测试。实证研究显示,策略在样本外测试期间表现出了惊人的收益能力,年化收益率达到80.3%,尽管胜率仅为46.1%,但是合理的止损机制大大降低了潜在的最大回撤。
止损机制的引入是该策略风险管理的关键部分。止损幅度被设置为1%,意味着当市场波动达到特定阈值时,系统会自动触发止损,从而限制损失。与无止损机制的择时策略相比,虽然后者的胜率更高,但其最大的回撤也更为剧烈,这在实际操作中可能会造成更大的风险。
在策略的应用和测试过程中,研究者注意到,选取1995年至2004年的数据作为初始语料库,2005年至2009年的数据用于模型的优化和阶数的确定,最终确定最佳模型阶数为6。这一过程展示了对模型参数和历史数据集的精心选择对于策略成功的重要性。
报告中的其他研究成果也表明,在金融市场中,采用复杂的算法和模型已成为一种趋势。例如,基于遗传规划的交易策略、日内突破模式和基于遗传算法的交易系统等,都是尝试从不同角度解决市场预测和交易决策的挑战。
综合来看,这份报告为金融市场的投资者和交易员提供了一个新的工具,帮助他们利用统计语言模型对市场进行深入的分析和预测,从而在复杂的市场环境中做出更为明智的交易决策。报告的结论强调了在追求高收益的同时,采取适当的风险控制措施的重要性。当然,任何模型和策略都有其局限性,投资者在实际操作中需要不断调整和优化策略以适应市场的变化,而广发证券的这项研究无疑为这一领域贡献了一份宝贵的学术和实践价值。
识别风险,发现价值 请务必阅读末页的免责声明
1 / 22
金融工程|专题报告
2014
年
1
月
14
日
证券研究报告
基于统计语言模型(
SLM
)的择时交易研究
另类交易策略之十三
报告摘要:
自然语言处理
自然语言处理始于 1950 年计算机科学之父图灵,在 60 年的发展
过程中,基本可以分为两个阶段,第一阶段研究者采用电脑模拟人脑
的过程,至 70 年代,传统语言学家走到了尽头,研究成果有限;第
二阶段贾里尼克和他领导的 IBM华生实验室开启利用统计学方法来进
行自然语言处理之先河,获得了巨大成就,其实验室团队堪称史上最
豪华阵容,后来解散后布朗与达拉皮垂兄弟去了文艺复兴科技公司,
在西蒙斯退休后布朗已经出任 CEO,该公司创造了投资奇迹,几十年
经久不败,本文将采用统计语言模型来识别市场涨跌进而形成交易策
略。
统计语言模型
SLM
语音识别专家要识别一段语言,即选择一组可能性最大的句子,
首先将句子分词,然后根据语料库估算一个给定语句的可能性,从而
选择可能性最大的语句作为识别结果。股市择时中,我们将历史行情
数据进行符号化之后,转化为涨跌符号序列,在给定过去一段时间内
的涨跌序列后,我们计算该条件下的未来涨跌的条件概率,较大者为
预测结果,相比较而言,我们的语料库为历史数据。
实证交易结果
以 1995 至 2004 年为初始语料库,2005 至 2009 年为样本内来寻
找最佳模型阶数,根据历史收益最大化原则,确定模型阶数为 6。
设置 1%为止损幅度,该止损幅度的意义在于当日盘中的波动较
昨日收盘价的变动幅度在不利方向超过或等于 1%时,我们触发止损
机制,强制平仓,否则持有到 15 点,观察次日涨跌信号再进行判断
。
从交易结果来看,2005 年至 2013 年累计收益率 1476.2%,年化
收益率 80.3%,胜率 46.1%,最大回撤-21.5%,样本外 2010、2011、
2012、2013 年度分别取得 9.4%、20.2%、22.5%、32.5%
的累计收益率,
四个年份对应的最大回撤分别为-11.5%、-6.8%、-11.1%、-11.8%。
单纯择时不考虑止损下结果为, 2005 年至 2013 年累计收益率
1392.2%,年化收益率 75%,胜率 53.1%,最大回撤-31.7%,样本外
2010、2011、2012、2013 年度分别取得 6.4%、16%、17.6%、29%的
累计收益率,四个年份对应的最大回撤分别为-21.3%、-9.0%、-8.3%
、
-14.1%。
综合考虑,实际运用建议加止损的模式。
图 不同阶模型下收益率
图 2 六阶模型下择时收益率
分析师:
安宁宁
S0260512020003
0755-23948352
ann@gf.com.cn
相关研究:
另类交易策略系列之十二:
基于遗传规划多维变量的
股指期货交易策略
2013-09-02
另类交易策略系列之十一:
日内突破模式及其资金管
理的多重比较研究
2013-06-17
另类交易策略系列之十:基
于遗传算法的期指日内交
易系统
2013-02-26
另类交易策略系列之九:基
于遗传规划的智能交易策
略方法
2013-09-16
0
1000
2000
3000
4000
5000
6000
7000
-1
0
1
2
3
4
5
6
7
1
33
65
97
129
161
193
225
257
289
321
353
385
417
449
481
513
545
577
609
641
673
705
737
769
801
833
865
897
929
961
993
1025
1057
1089
1121
1153
1185
3阶
4阶
5阶
6阶
7阶
8阶
9阶
10阶
上证指数
0
1000
2000
3000
4000
5000
6000
7000
-2
0
2
4
6
8
10
12
14
16
20050104
20050328
20050615
20050826
20051115
20060208
20060421
20060711
20060921
20061211
20070305
20070523
20070803
20071023
20080107
20080326
20080612
20080825
20081113
20090204
20090420
20090706
20090916
20091207
20100225
20100512
20100728
20101020
20101231
20110323
20110609
20110822
20111110
20120201
20120418
20120704
20120914
20121204
20130226
20130516
20130801
20131023
考虑止损下策略收益
上证指数
识别风险,发现价值 请务必阅读末页的免责声明
2 / 22
金融工程|专题报告
目录索引
一、统计语言模型 ........................................................ 4
(一)自然语言处理.................................................... 4
(二)统计语言模型(SLM) ............................................. 5
二、N 元模型及其择时应用 ................................................. 7
(一)模型介绍 ....................................................... 7
(二)模型应用及交易策略 .............................................. 7
三、上证指数实证 ........................................................ 9
(一)实证说明 ....................................................... 9
(二)模型阶数确定.................................................... 9
(三)6 阶模型概率表一撇 ............................................. 11
(四)考虑止损下实证交易 ............................................. 13
(五)未考虑止损下实证交易 ........................................... 16
(五)综合比较结果................................................... 18
四、总结 ............................................................... 20
识别风险,发现价值 请务必阅读末页的免责声明
3 / 22
金融工程|专题报告
图表索引
图 1:文艺复兴大奖章基金历年收益 ..................................................................... 4
图 2:2 阶符号化方法下 N 阶模型词组规模 ........................................................ 10
图 3:不同模型阶数在样本内收益 ...................................................................... 10
图 4:不同模型阶数在样本内收益 ...................................................................... 11
图 5:6 阶模型概率 ............................................................................................. 12
图 6:考虑止损下 SLM 择时交易累计收益 .......................................................... 13
图 7:考虑止损下 SLM 择时交易各年度收益率 ................................................... 14
图 8:考虑止损下 SLM 择时交易最大回撤情况 ................................................... 14
图 9:考虑止损下 SLM 择时交易连胜情况 .......................................................... 15
图 10:考虑止损下 SLM 择时交易连胜情况 ........................................................ 15
图 11:考虑止损下 SLM 择时交易连亏情况 ........................................................ 16
图 12:考虑止损下 SLM 择时交易连亏情况 ........................................................ 16
图 13:未考虑止损下 SLM 择时交易累计收益 .................................................... 16
图 14:未考虑止损下 SLM 择时交易各年度收益率 ............................................. 18
图 15:SLM 择时交易最大回撤情况 ................................................................... 18
图 16:是否止损下策略各年度收益 .................................................................... 19
图 17:是否止损下策略各年度最大回撤 ............................................................. 19
表 1:模型交易策略操作规则 ................................................................................ 8
表 2:模型实证评价体系 ....................................................................................... 9
表 3:不同模型阶数下词组规模 .......................................................................... 10
表 4:6 阶模型概率表 ......................................................................................... 12
表 5:考虑止损下 SLM 择时交易结果 ................................................................. 13
表 6:考虑止损下 SLM 择时交易结果 ................................................................. 14
表 7:未考虑止损下 SLM 择时交易结果 ............................................................. 17
表 8:未考虑止损下 SLM 择时交易结果 ............................................................. 17
识别风险,发现价值 请务必阅读末页的免责声明
4 / 22
金融工程|专题报告
一、统计语言模型
(一)自然语言处理
自然语言处理始于1950年计算机科学之父图灵1950年 在《 Mind》杂志上发表了
一篇题为《计算的机器和智能》的论文,其在该文中提出了一种来验证机器是否有
智能的方法,让人和机器进行交流。
自然语言处理在60年的发展过程中,基本可以分为两个阶段,第一阶段从20世
纪50年代到70年代,研究者处于走弯路的阶段,其研究方式基本上被局限在了人类
学习语言的方式上,用电脑模拟人脑,其大概过程是首先分析语句,再来获取语义,
成果十分有限,研究者首先将一个简单的句子分解为主语、谓语、宾语等部分,再
对每一部进行分析形成语法分析树(Parse Tree),所使用的文法规则称为重写规
则,一条语句转化为一个复杂的二维树结构,这种思路和方式在实际问题遇到了不
可逾越的两条鸿沟,其一文法规则的量级庞大,往往成数万条之众,语言学家几乎
来不及写,其二分析的发杂度随着语句长度的增长呈几何级数扩大,对于上下文无
关的文法,算法的复杂度是语句长度的二次方,而对于上下文有关的文法,计算复
杂度是语句长度的六次方,即使使用目前双核处理器,要解析二三十个句子也需要
几分钟的时间,传统自然语言处理研究者走到了尽头。
从20世纪70年代开始,弗里德里克.贾里尼克和他领导的IBM华生实验室,利用
统计学方法来进行自然语言处理,获得了巨大成就。在此我们仅简单列举其研究团
队的阵容就足以观其辉煌,其团队成员包括波尔(L.Bahl),著名的语音识别Dragon
公司的创始人贝克夫妇(Jim Baker & Janet Baker),解决了最大熵迭代算法的达
拉皮垂(S.Della Pietra & V.Della Pietra)兄弟,BCJR算法的另外两个共同提出者
库克(J.Cocke)和拉维夫(J.Raviv),以及第一个地处机器翻译统计模型的布朗
(Peter Brown)。
值得注意的是,上述自然语言处理史上最豪华阵容在解体之后,其中的布朗和
达拉皮垂兄弟去了大名鼎鼎的文艺复兴技术公司,后者是远超巴菲特的对冲基金,
二十多年经久不败,2010年西蒙斯退休之后,布朗称为了两位联席CEO之一,可见
自然语言处理技术在投资领域之威力。
图
1
:文艺复兴大奖章基金历年收益
剩余21页未读,继续阅读
资源推荐
资源评论
2022-08-04 上传
178 浏览量
194 浏览量
2022-08-04 上传
193 浏览量
2023-07-29 上传
139 浏览量
5星 · 资源好评率100%
152 浏览量
148 浏览量
5星 · 资源好评率100%
190 浏览量
194 浏览量
2018-01-12 上传
135 浏览量
148 浏览量
2021-09-29 上传
2021-09-19 上传
5星 · 资源好评率100%
146 浏览量
124 浏览量
2019-10-30 上传
154 浏览量
2020-08-13 上传
2020-12-25 上传
5星 · 资源好评率100%
116 浏览量
2011-03-21 上传
资源评论
航知道
- 粉丝: 32
- 资源: 301
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功