没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
Microsoft 时序算法
Microsoft 时序算法提供了一些针对连续值(例如一段时间内的产品销售额)
预测进行了优化的回归算法。 虽然其他 Microsoft 算法(如决策树)也能预测
趋势,但是他们需要使用其他新信息列作为输入才能进行预测,而时序模型则
不需要。 时序模型仅根据用于创建该模型的原始数据集就可以预测趋势。 进行
预测时您还可以向模型添加新数据,随后新数据会自动纳入趋势分析范围内。
下面的关系图显示了一个用于预测一段时间内某一产品在四个不同销售区域的
销售额的典型模型。 该关系图中的模型以红色、黄色、紫色和蓝色线条分别显
示每个区域的销售额。 每个区域的线条都分为两部分:
历史信息显示在竖线的左侧,表示算法用来创建模型的数据。
预测信息显示在竖线的右侧,表示模型所做出的预测。
源数据和预测数据的组合称为“序列”。
Microsoft 时序算法的一个重要功能就是可以执行交叉预测。 如果用两个单独
但相关的序列为该算法定型,则可以使用生成的模型来根据一个序列的行为预
测另一个序列的结果。 例如,一个产品的实际销售额可能会影响另一个产品的
预测销售额。在创建可应用于多个序列的通用模型时,交叉预测也很有用。 例
如,由于序列缺少高质量的数据,造成对某一特定区域的预测不稳定。您可以
根据所有四个区域的平均情况来为通用模型定型,然后将该模型应用到各个序
列,以便为每个区域生成更稳定的预测。
示例
Adventure Works Cycles 的管理团队要预测来年的自行车月销售额。 该公
司尤为关注一种自行车型号的销售额是否可用于预测另一种型号的销售额。 通
过对过去三年的历史数据使用 Microsoft 时序算法,该公司可以建立一个数据
挖掘模型,用于预测未来的自行车销售情况。 此外,该公司还可以进行交叉预
测,以了解各个自行车型号的销售趋势是否相关。
每个季度,该公司都会计划用最近的销售数据来更新模型,并更新其预测以描
绘出最近的趋势。 有些商店不能准确地或始终如一地更新销售数据,为了弥补
这一点造成的误差,他们将创建一个通用预测模型,并用该模型对所有区域进
行预测。
算法的原理
在 SQL Server 2005 中,Microsoft 时序算法使用单个算法,即 ARTXP。
ARTXP 算法针对短期预测进行了优化,因此可预测序列中下一个可能的值。
从 SQL Server 2008 开始,Microsoft 时序算法同时使用 ARTXP 算法和另
一种算法 ARIMA。 ARIMA 算法针对长期预测进行了优化。 有关 ARTXP 和
ARIMA 算法的实现的详细说明,请参阅 Microsoft 时序算法技术参考 。
默认情况下,Microsoft 时序算法在分析模式和进行预测时混合使用这两种算
法。 该算法使用相同的数据为两个单独的模型定型:一个模型采用 ARTXP 算
法,另一个模型采用 ARIMA 算法。然后,该算法结合这两个模型的结果来产
生可变数量时间段的最佳预测。 因为 ARTXP 最适合于短期预测,所以在一系
列预测的开始时它十分重要。 但是,随着预测的时间段不断地向将来延伸,
ARIMA 就比较重要了。
您还可以控制这两种算法的混合方式,以在时序中优先采用短期预测或长期预
测。 从 SQL Server 2008 Standard 开始,可指定 Microsoft 时序算法使用
以下设置之一:
对短期预测仅使用 ARTXP。
对长期预测仅使用 ARIMA。
使用这两种算法的默认混合。
从 SQL Server 2008 Enterprise 开始,可以自定义 Microsoft 时序算法混
合预测模型的方式。 采用混合模型时,Microsoft 时序算法按以下方式混合这
两种算法:
在进行前几步预测时始终只使用 ARTXP。
完成前几步预测后,结合使用 ARIMA 和 ARTXP。
随着预测步骤数的增加,预测越来越多地依赖 ARIMA,直至不再使用
ARTXP。
您可以通过设置 PREDICTION_SMOOTHING 参数来控制混合点,即减
小 ARTXP 权重和增大 ARIMA 权重的速率。
这两种算法都可以检测多个级别的数据的季节性。 例如,数据可能包含嵌套在
年度周期内的月度周期。 若要检测这些季节性周期,可提供周期提示或指定算
法应自动检测周期。
除了周期之外,还有若干其他参数可控制 Microsoft 时序算法在检测周期、进
行预测或分析事例时的行为。 有关如何设置算法参数的信息,请参阅
Microsoft 时序算法技术参考 。
时序模型的数据要求
在准备用于定型任何数据挖掘模型的数据时,一定要了解特定模型的要求以及
这些数据的使用方式。
每个预测模型都必须包含一个事例序列,它是一个列,用于指定发生变化的时
间段或其他序列。 例如,上一个关系图中的数据显示了在为期几个月的时间段
内自行车的历史销售额和预测销售额的序列。 对于该模型,每个区域是一个序
列,并且日期列包含时序,该列也是事例序列。 在其他一些模型中,事例序列
可以是文本字段或某个标识符,如客户 ID 或事务 ID。 但是,时序模型必须始
终对其事例序列使用日期、时间或某个其他唯一数值。
时序模型的要求如下:
单个键时间列 每个模型都必须包含一个用作事例序列的数值或日期列,
该列定义了该模型将使用的时间段。 key time 列的数据类型可以是
datetime 数据类型或 numeric 数据类型。 但是,该列必须包含连续
值,并且这些值对各个序列而言必须是唯一的。 时序模型的事例序列不
能存储在两列中,例如不能存储在一个 Year 列和一个 Month 列中。
可预测列 每个模型都必须至少包含一个可预测列,算法将根据这个可
预测列生成时序模型。 可预测列的数据类型必须具有连续值。 例如,您
可以预测在一段时间内数值属性(例如收入、销售额或温度)将如何变
化。 但是,您不能使用包含离散值(例如采购状态或教育水平)的列作
为可预测列。
可选序列键列 每个模型可包含一个附加的键列,该列包含标识序列的
唯一值。 可选序列键列必须包含唯一值。 例如,只要在每个时间段内每
个产品名称都只有一条记录,单个模型就可以包含多个产品型号的销售
额。
您可以用若干种不同的方式定义 Microsoft 时序模型的输入数据。 但是,由于
输入事例的格式会影响挖掘模型的定义,因此您必须考虑自己的业务需求并相
剩余22页未读,继续阅读
资源评论
- wo8525485452013-06-18是我急需的资料,非常感谢!
- whutcomputer2013-10-10资料不错,但是没有使用案例啊
xinxin4312
- 粉丝: 0
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功