基于逐步回归分析的话务预测研究基于逐步回归分析的话务预测研究
针对现有话务预测模型变量单一、预测误差大等问题引入了逐步回归分析法;结合海河银行信用卡呼叫中心实
际需求,对话务数据进行了抽取集成等预处理操作;随之建立了各影响因素的一元回归模型,并在此基础上得
到了多元逐步回归的话务预测模型;最后将此建模方法与其他分析法进行了综合比较并给出评价。
摘摘 要要: 针对现有
关键词关键词: 话务预测;回归分析;逐步回归;时间序列分析
0 引言引言
目前许多企业的呼叫中心都面临着话务量激增、话务员大幅度增长的问题,如何准确预测话务量对移动通信网络的管理具
有重大的意义。
当前,建立预测模型的主要方法有Kalman滤波[1-2]、时间序列预测[3-4]、话务量OLAP分析[5]等。其中Kalman滤波和时
间序列预测法相对简单,但难以满足现阶段话务量的复杂变化,话务量OLAP分析技术则处于起步阶段,并没有大范围地推广
应用。国内各厂商的话务预测基本是以各种时间序列模型作为预测的核心技术,仅仅基于话务数据,使用时间序列回归预测法
和指数平滑预测法[6]进行预测。然而这两种方法都不适用于具有季节变动规律的分月话务量预测。因此当前迫切需要的话务
预测模型是基于多因素预测话务量波动趋势的模型。
本文通过比较不同回归分析法的优缺点,提出使用逐步回归分析法解决预测话务量不够精准、运算量太大的问题。以海河
银行信用卡业务呼叫中心为实例,重点阐述了多元逐步回归话务预测模型的建模过程,并做了模型显著性检验。最后通过与其
他回归分析法及
1 逐步回归分析法介绍逐步回归分析法介绍
回归分析是一种研究多个变量之间的函数关系的统计分析方法,如果能找到影响预测对象的主要因素,并且取得准确的数
量资料,就可以采用回归分析法来进行预测。银行信用卡中心的话务量与其业务办理相关,影响因素可以明确提炼,并且与话
务量相关的记录数据获取难度不大,因此十分符合回归分析法的要求。
回归方法一般分为穷尽法、逐步剔除法、逐步加入法和逐步回归分析法。穷尽法的工作量极大,一般很少使用;逐步剔除
法需要把所有变量都引入回归函数,对类似海河银行这样大型的话务中心而言,成本开销太大,难以推广;逐步加入法虽不需
将所有变量都引入函数,但没有考虑引入新自变量后,现有的自变量显著程度是否变化。在此基础上,引入逐步回归分析法来
解决建模过程中计算量与显著程度相冲突的问题。
逐步回归分析法的核心思想是考虑自变量对因变量的影响显著程度,从大至小一一引入回归函数。每次引入都是剩下的自
变量中对因变量影响最为显著的自变量,因此可减少一定的计算量。另外,引入新的自变量后,需要对函数中现有的老的自变
量做检验,查看其是否还有很高的显著程度。如其显著程度很低,则将它从回归函数中剔除。最终得到的回归函数既不会遗漏
对因变量影响显著的自变量,也不会包含那些影响不大的自变量。
2 逐步回归模型建立逐步回归模型建立
影响信用卡中心客服话务量的因素基本包括信用卡的所有业务,需要从销售、审批、帐务、促销等多个方面选择一些重要
因素参与预测模型的探索。
2.1 相关数据抽取和集成相关数据抽取和集成
模型的建立以海河银行信用卡中心近几年各系统的数据为基础,由于数据量巨大且在原系统内做数据集成必然会对生产环
境系统的运行产生影响,因此,增加了原系统明细数据层。为了提高数据抽取的速度,保持原系统明细数据层的数据与原系统
数据的一致性,并且降低对生产环境运行系统的影响,抽取过程遵循以下原则:
(1)以时间字段作为唯一过滤条件;
(2)只抽取需要使用的部分表的部分字段。
基于以上原则,可以有效避免因为其他逻辑缺陷,导致数据重复抽取或遗漏抽取的可能性。数据抽取后,可通过按日期分
组聚合影响因素的方法,统计发卡数、临时额度调整数量、账单或交易分期申请数量等信息。也可依照其他类别分组聚合影响
因素,统计特定信息,如审批拒绝数量、各类短信发送数量等。
2.2 集成数据层数据清洗集成数据层数据清洗
从原系统明细数据层集成后的数据被存入集成数据层,虽然此层存放了用于下阶段数据挖掘所需的全部数据,但直接用于
探索模型会出现很多噪音,影响模型探索和预测的准确度,因此数据清洗是不可或缺的。
(1)错误数据
话务量数据是从客户服务系统和CTI系统关联得到,由于每个系统都存在一定的缺陷,一旦系统发生故障,可能会丢失故
障期间接入的通话信息,或者正常的话务信息会统计出错,有时被翻倍统计。因此需要给话务量受影响较大的故障日期增加故
障标志位。