没有合适的资源?快使用搜索试试~ 我知道了~
Tesnor Ridge Regression 与多信息源因子 Ver 1.21
需积分: 0 0 下载量 189 浏览量
2022-08-03
13:45:20
上传
评论
收藏 2.01MB PDF 举报
温馨提示
试读
16页
1.1、符号 2.1 符号 2.2 Tensor Ridge Regression 2.3 内积 Inner Product 2.4 矩阵内积与迹运算 2.5
资源详情
资源评论
资源推荐
Tesnor Ridge Regression
与
多
信
息
源
因
子
张
量
表
征
猫狗
大
战
联系信箱:[email protected]
首
先
给
自
己
打
个
广
告
,
应
届
硕
士
,
求
量
化
相
关
工
作
、
实
习
。
本文先简单归纳《A Tensor-Based Information Framework for Predicting the Stock Market 》中介绍的一种探
索多维数组(张量)表征多因子并计算不同因子抽象关系并降低维度的方法,然后归纳《Tensor Learning for
Regression 》中介绍的Tesnor Ridge Regression算法,通过CP分解张量降低需要估计回归系数(因子收益率)的
数量。
股票趋势受各种高度相关信息的强烈影响,这通常涵盖经济学、政治学和心理学等多方面研究。传统的有效市场假
说(EMH)指出,股价总是由“理性”的投资者驱动,股价等于公司预期未来现金流的理性现值。与市场有关的新信
息可能会改变投资者的期望,并导致股价波动,这种对信息反应的分歧导致股价的实际价格与内在价值之间的差
异。竞争市场参与者导致股价波动周围的股价内在价值,即新信息对股价产生复杂的影响。然而,股价并不严格遵
循随机游走,行为金融研究将股票趋势的非随机性归结为投资者由于认知和情绪偏见的对不利消息的过度反应。虽
然传统金融和行为金融均认为新的信息对股票趋势产生复杂影响。
A股市场刨除内幕等操作方法为,一般分为基本面分析和技术分析两类。基本面分析通常通过构建经济、商业和市
场行业等多信息源的数据与股票未来走势之间的关系来预测股票趋势,即国家整体经济,行业条件,公司的财务状
况和管理层能力等因素,可以深度拆解股价未来走势。技术分析通过历史股票趋势预测股价未来走势,技术分析流
派认为股价市场是周期性或者类周期性的,并且具有特定的模式,这些模式随着时间的推移而重复出现。
受到移动互联网的影响,股票信息迅速更新并以前所未有的速度传播,并且通常在正式统计报告之前向投资者对投
资者产生影响。用户参与社交媒体(包括评论,评分和投票)的变化可以更快速地互动交换信息。这种情况可能导
致群体投资行为,因为投资者的决策倾向于受同行的情绪影响。目前常见的做法是使用NLP量化新闻和社交网络的
新信息提供定性信息,如舆情指数。影响股票趋势的信息是多方面的且互相影响的,反映到因子数据方面就是存在
多重共线性。
传统的线性回归将多个信息源(模式)的特征(无量纲因子)连接到一个复合特征的向量中处理。由于维度灾难和
多重共线性,这种做法限制了多因子模型囊括因子数量。此外使用马赛克拼接(mosaic approach)通常包含各种信
息源的混合和交互,但级联向量假设每个信息膜是是相互独立的。如下图这里,矩阵用于建模简化的投资信息源,
其中每行代表一种信息模式,如企业信息、事件信息或情绪信息。根据马赛克拼接信息结构,特征模式可以存在于
不同信息源(行)或不同模式之间。
如图右所示,删除马赛克信息结构并将各种信息模式的特征连接成一个复合特征向量,级联向量方法忽略了各种信
息模式之间的固有链路导致明显的相似性的出现。除了在一个信息矩阵中捕获各种模式之间的这些静态互连之外,
重要的是在一系列信息矩阵之间识别和强调各种模式之间的动态连接。例如,在不同时间发布的两篇新闻文章可能
是文本上不相似的,但两者可能包含有关相同股价的有利信息。此外,在这两个时间点的相应的企业特定数据可能
相似,可能表明良好的投资机会。在这种情况下,可以通过相应的基本面数据的相似性来增强不同文本信息处理、
舆情指数相似性。捕捉,推论和加强各种信息模式之间的动态关系将有利于提高对股票趋势的预测能力。
此文中应用基于张量的信息框架来捕捉新信息与股票走势之间的非线性关系。该框架使用全局维数降低算法和基于
张量的回归获取多信息源之前的非线性关系,并研究这些信息源对股票趋势的影响。影响股票走势的各种信息因
素,在过去已被广泛研究。 传统金融主要集中在企业特定因素的长期影响上,而现代行为金融主要集中在公众情绪
和当前事件造成的短期影响。此文试图通过建立多维度模型处理各种信息源对股票趋势的共同影响。这里将信息按
照信息源分成三类:(a) 企业特定模型信息模式:主要指企业的基本面和量价因子;(b) 事件特定模式:主要指新闻
资讯对股价走势的影响,受新信息的影响,股票投资者不断更新他们公司经营情况等基本面及股价走势的看法或非
理性投资者的情绪。具体来说,可以对相关新闻文章使用词向量表示,其中每个条目是名词和情感词的加权。(c)
情绪特定模式:发达的社交媒体使一部分投资者潜意识群体和情绪的影响,这可能导致投资者的群体性行为。
可以使用张量处理多信息源信息的相互关联特性,这里使用三阶张量表示三种不同的信息模式。将三种不同信息源
的信息(因子)填入张量不同维度(形成一个稀疏张量),如下图,应用张量分解和重构来降低维度,加强不同信
息模式的内在联系。通过使用张量分解子空间中的因子矩阵来实现从张量序列的几何结构中识别出几个信息源之间
的深层关联。使用 分解因子张量 使用GDR算法计算因子矩阵修正矩阵并重
新合成信息因子张量 。这样多信息源的原始因子稀疏张量转化为低
维度的密集因子张量。
尽管通过前述步骤分解-重构技术可以大大压缩稀疏的因子张量的体积规模,然而使用传统的方法如张量向量化估
计张量回归权重系数依然具有较大的难度。例如对形状为[30, 30, 10]因子张量进行回归,张量向量化的处理方法导
致权重系数张量需要估计 个权重参数(标量),对于传统多因子模型这显然是不实用。可以
通过使用张量分解的方法(如CP分解)大幅度降低所需估计的权重系数的数量,从而将张量回归方法嵌入传统多因
子体系中。例如在《Tensor Learning for Regression 》介绍的tensor ridge regression。对上面的假设,使用CP
分解权重张量之后,例如分解为4个坐标基(秩一张量)累加和则只需要估计 个权重参
数。
对一组给定的有标签训练集 其中 为 张量, 为对应的标量标签。评估权重
参数的目标函数可以写作
偏差损失函数, 惩罚函数。当使用响应变量和标签差最小平方和作为损失函数的时候就是张量形式的最小
二乘估计,添加2范数作为惩罚函数便得到张量形式的岭回归。在不使用惩罚项修正权重参数的时候,即张量形式
的最小二乘回归中偏置 直接使用上式得出,在使用 修正权重参数的时候由于偏置权重参数同时被修
正,这导致常数偏置项的错误。所以TRR的常数偏置应该使用无偏置回归的残差平均值获得,也就是使用无偏置回
归模型的残差平均值计算偏置,但哑变量表示的行业收益率可以直接计算。
附
录
1
、
向
量
-
线
性
回
归
1.1
、
符
号
列向量
行向量
矩阵
单位矩阵
张量
L2范数
1.2
、
Least Squares Regression
传统线性回归模型可以写作:
使用线性模型拟合得到的估计值模型为:
其中
剩余15页未读,继续阅读
豆瓣时间
- 粉丝: 22
- 资源: 329
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0