基于机器学习的多因子选股模型 本文主要介绍基于机器学习的多因子选股模型,旨在探讨 XGBoost 结合半衰期 IC 加权的方法在多因子选股模型中的应用。模型选取沪深 300 成分股作为股票池,选取 2010 年年初到 2019 年年初中价值类、成长类、规模类、交投类、情绪类、每股、质量类和风险类这 8 大类因子的数据,并应用 XGBoost 方法选取重要的因子,然后运用半衰期 IC 加权对重要因子进行赋权的方法。 多因子选股模型是量化投资中非常重要的模型,该模型主要依据一系列的因子作为计算股票收益的标准,后根据收益率的高低选择合适的股票。多因子模型的优点主要是对市场波动较为敏感,能够依据最新市场行情改变选股策略,在不同的市场情况下,有不同的因子发挥作用。 本文的多因子选股模型框架主要分为五步,分别为候选因子的选取、数据预处理、筛选重要因子、构建多因子模型、模型的评价与分析。其中,候选因子的选取主要依赖于经济的逻辑和市场的经验,选择更多和更有效的因子是增强模型的信息收割能力,提高收益的关键因素之一。 数据预处理是模型的重要步骤,需要对数据进行缺失值处理、离群值处理、标准化和中性化等,以让数据更适应模型,匹配模型的需求。然后,使用 XGBoost 方法查看哪些因子对收益率起着较大的作用,并对重要因子进行半衰期 IC 加权的方法,以提高模型的信息收割能力和收益率。 通过实证研究表明,在多因子选股策略中,利用 XGBoost 方法选取重要的因子,然后运用半衰期 IC 加权对重要因子进行赋权的方法在排名前 10% 的股票中可获得年化收益率为 26.86%,要比年化收益为 2.05% 的沪深 300 指数高出 24.81%。这个方法可对量化选股提出新思路。 此外,本文还对多因子选股模型的发展历程进行了综述,包括 Fama & French(1996)等人提出的经典的三因子模型、Esmaeil Hadavandi et al.(2010)等人提出遗传模糊系统和人工神经网络两者相结合的方法、王春丽等(2018)利用回归法研究多因子选股模型等。 本文基于机器学习的多因子选股模型可以对量化选股提出新思路,提高模型的信息收割能力和收益率,为量化投资提供新的研究方向和方法。
- 粉丝: 22
- 资源: 2万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助