论文研究-基于自适应权重的面板数据聚类方法.pdf

所需积分/C币:36 2019-09-20 17:33:06 963KB .PDF
收藏 收藏
举报

论文研究-基于自适应权重的面板数据聚类方法.pdf,  基于二维信息的传统聚类方法并不适用于处理面板数据, 在考察面板数据多重信息特征的基础上, 基于面板数据的"绝对指标", "增量指标"及"波动指标", 重构了面板数据相似性测度的距离函数和Ward聚类算法, 提出了面板数据自适应权重聚类方法. 所提供的算法既可退化为传统的绝对量距离聚类方法, 亦可对面板数据的未来所属类别进行聚类预测. 最
390 系统工程理论与实践 第33卷 其中,xkt(=1,2,…,N;K=1,2,,m;t=1,2,…,T)表示个体i的t时期第k个指标的值.xkt与 rM意义类同d(AQED)表征了个体讠和个体j之间在整个时期T内的距离远近程度,是经典多元统计 分析中欧式距离的简单继 定义2个体和个体j之间的“增速”距离( increment speed Euclidean distance),简记为:dy(ISED) n(SED)=∑∑ kt k=lt=2(ikt-1Cikt-1 其中,△Mt=kt-xkt-1,Axkt=xk-xkt-1.△xkt和△xrkt表示指标两个相邻时期的绝对量差异 d(ⅠSED)刻画∫个体讠和个体了的对应指标增量随着时间变化的趋势差异,若对应指标随着时间都呈同 向变化.这种变化越协调,则两者越相似,d(ISED)也越小若对应指标呈反向变化,则相似性铰差,此时 d1(ISFD)也会较大.这符合相似性度量的基本原则 定义3个体和个体j之间的波动”距离( ariation coefficient Euclidean distance),简记为:a;(VCED) diy (vCD)=∑ 了Th k=1 zk 其中x=÷∑:=1,S=n∑=1(x,t-m1)2.亚表示个体第k个指标在总时期r内变量的均 值,S表示个体i第k个指标在总时期T内变量的标准差和Sk意义类似.d(VCFD)表征了个体 i和个体j之间在整个时期T内指标值随时间变化的波动程度差异显然,如果两个个体相似性较大,则其 波动程度应该也相差不多,d1/(VCED)应较小.变异系数是指标波动程度的一个代表,考虑到变异系数越大 指标波动程度越大,个体发展越不稳定,是一个负指标,故在计算距离时取其倒数 定义4个体和个体j之间的“综合”距离( comprehensive Euclidean distance),简记为:d(CED dii (CeD)=w1. di (AQED)+w2 idis (ISED)+w3 zdi; (VCED) 其中,2d1(AQED),2b1(ISED)和2d1(VCED)分别是距离d1(AQED),dx;(ISED)和d3(VCED)进行 标准化变换后的值.对所有个体间的距离d(AQED),标准化变换公式为 adii(AQED) dij(aQED)-mindi; (AQED) maxdi; (AQED)-mindij (AQED (5) 在此axl1(AQED)和mind;(AQED)分别表示所有距离l(AQED)中的最大值和最小值.zd/(ISED) 和zd7VCED的定义与zdn1(AQED)的定义类似.dCED)是上述三种标准化距离的加权组合,表征了 综合考虑面板数据三方面信息后而得出的综合距离.式(4)中之所以用标准化距离主要是为了避免三种形式 的距离间可能存在数量级的较大差异而使得某些距离的影响失去作用.另外,u1,2和u3表示三种距离的 杖重,且满足:ω1+ω2+3=1.权重系数ωr可以根据研究问题的实际情况主观给定或客观测定.显然,如 果ω2=ω3=0.则综合距离就退化为传统的“绝对量”距离 23综合距离权重的确定方法 为了综合反映研究者对事物的认识和数据本身所反映的信息,权重的确定宜采用主、客观综合赋权方法, 即 T 1.2.3 其中,ω为指标的主观权重,可以由研究者根据对事物的认识和对距离类型的重要程度偏好主观测定,如常 见的“专家调查法”、“层次分析法”等等;n′为指标的客观权重,可以根据数据本身的信息客观测定,如常 见的“熵权系数法”、“局部变杖法”、“方差贡献法”等等.木文在实例中利用专家调查法获得主观杖重,采用 熵权系数法获得客观权重 对于有N个个体,m个指标,T个时期的面板数据,可以通过式(1)、式(2)和式(3)得到相应面板数据 集的3种不同距离.显然,如果某个距离在个体间的差异越大,则该项距离所包含和传输的信息越多,那么该 距离在综合距离函数中应该给予较大的权重以利于聚类分析.而“熵值法”是一种根据各项指标的观测值所 提供的信息量的大小来确定指标权重的方法,用熵值法确定三种距离的客观权重的步骤如下⑨ Stcp1对原始数据矩阵D=(dl;)N×k各列进行归一化处理,计算其特征比重 d pi=、N.,1=1,2,…,N=1,2,3 其中,d1;>0,且 N =1 d;>0. 第2期 李因果.等:基于自适应权重的面板数据聚类方法 391 Step2计算第j个距离指标的熵值 Pijln pij, j=1, 2, 3 Step8计算第j个距离的客观权重 ,=1,2,3 已 上文基于欧氏距离给出了相似性度量的统计量,当然,也可以根据其他常见的距离形式写出类似统计量, 如:马氏距离、兰氏距离等.亦可根据相关系数、夹角余弦等写出相似性统计量,本文不再赘述 3聚类方法及聚类步骤 31面板数据的系统聚类方法 系统聚类方法是最常用的聚类分析方法,类间距离的不同定义就产生不同的系统聚类方法Ward法是 实践中常用的类间距离定义方法.其思想来源于方差分析.即:如果类分得正确,则同类样品的离差平方和 应较小,类与类之间的离差平方和应较大.离差平方和法放弃了在一切分类中求极小值的要求,而是设计出 某种规则找到一个局部最优解,Ward法就是找局部最优解的一个方法.其思想是先将n个样品各自成一类, 然后每次缩小一类,每缩小一类离差平方和就要增大,选择使增加最小的两类合并,直到所有的样品归为 类为止10.在传统的二维聚类方法中,Ward法应用比较广泛,分类效果较好,但它要求样品间的距离为欧 式距离.由于本文所定义的4种距离都是基欧式距离,因此可以参考Ward法提出面板数据的系统聚 类方法 Ward法的思想如下:假定已将N个样品分成k类,记为G1,C2,…,Ck,N表示C1类的样品个数,Xt 表示C的重心,Xt表示C中第(=1,2,…,N)个样品的指标值,则Cl中样品的离差平方和W为 ∑(Xn-X)(Xn-X k个类的总离差平方和为 ∑W (11) 当k固定时,要选择使得W达到极小的分类10-1 基于ward法的分类思想,并结合本文提出的4类距离,对于包含T个时期,m个指标、N个样品的面 板数据,可以给出面板数据分类G1中样品离差平方和以及总离差平方和的相应公式样品离差平方和为 W=∑∑(X-X(Xa-X1)+∑2(Y-(Y-到+2(Z1-z(21-Z)(12) 若分为k类,则总离差平方和为 ∑W 其中,W表示G1中M个样品的总离差平方和;在式(10)中,Xat,Yt,Zt都是m维向量,Xt-(Xat,Xat, ,Xmt),Yt=(Yat,Yzx,…,Ymt),2t=(21t,z12t,…Zm).其中,Xat为t时期个体讠第j个指标的 值; x,表示G1中t时期个体i第j个指标的增量速度,△Xnt=Xmt-Xt-1表示G1中t时 期和1-1时期个体i第j个指标的绝对量差异;2;=表示G1中个体i第j个指标变异程度,是传统 变异系数的倒数;X=>X,Y=∑1Ym,z=青∑凶1z:某两类合并后增加的离差平方和在 Ward法中被看作类与类之间的平方距离,若将某两类Gn和G合并为一个新类G则类Gn和Gq之间 的距离为 Dna=wr(w+w 其它类Gk与新类Gr的距离递推公式为: N+ N.kpN+N (15) 392 系统工程理论与实践 第33卷 Np,Nq,Nk和N分别是类Gp,Gq,Gk和Gr对应的个体数.同样,对于固定的k,选择使得Dn达到极小 的分类.显然,如果=如3=0,综合ward统计量就退化为传统ward统计量 32面板数据分类数的确定 Bemirmen在研究岩相分类时指岀应根据研究目的确定适当的分组法,并提出了根据聚类谱系图分类 的四个基本准则1.此后衍生了许多确定分类数的方法,如:阈值法、信息熵法、最小突变法、谱系图法、碎 石图法等等12.实际上.基于系统的复杂性,一般事先无法确定预分类数,而事先给定预分类数实际上是 对算法的千预,很可能会伤害分类科学性.在不指定分类数的情况下,分类数增加会导致类内距离的下降而 类间距离增加,因此,要求一个绝对最优分类数是不可能的.在参考文献(1和[1的基础上,提出如下确定 分类阈值的方法 定义5集合S,对一定阈值h,如果 k,s-(k)≤h,Mk∈S (16) 则称为一个类 其中,Dk,s(b)表示元素k与S-(k)之间的距离,此距离根据本文的4个定义给出,求出第l次并类 距离D与最后一次并类距离DN-1之比,记为S,如果S与S1+1相差较小,而S1与S1-1相差较大,则可 选h=D1作为分类的阈值,根据此阈值获得初步分类数 聚类分析主要应用于探索性硏究,其分析结果可以提供多个可能解.所以应根据硏究目的,针对面板数 据的时序和波动特征并结合所研究问题的实战饯意义,先从主、客观两方面确定分类数的初步合理区间,进而 在定义5分类数确定方法的基础上,根据研究者对实际冋题的偏好选择权重,通过不断筛选,以实现类内距 和类间距两者的调和满意解,最终获得相对满意的分类数 33面板数据系统聚类法基本步骤 设有N个样品,每个样品有T个时期的m项指标,面板数据系统聚类法的具体步骤如下 Step1根据式(1)、式(2)和式(3)分别计算三种距离; Step2根据硏究者对客观事物的认识和对距离类型的重要性偏好确定主观权重系数; Step3根据式(7)、式(8)和式(9)计算三种距离的客观熵权系数; Step4以式(4)计算N个样品两两间的“综合距离”,样品间的距离矩阵DO step5初始(第一步,=1)样品自成一类类的个数k=N,令D()=D0,第i个类G1={X(o)}( 1,2,…,N).然后对样品X(a)(2=2,…,N)执行并类步骤Step6和步骤Sep7; Step6对Step5得出的距离矩阵D(-1),根据并类准则合并“综合距离”最小的两类为一个新类 Step7计算新类与其他类的“综合距离”,得到新的距离矩阵D.重复并类步骤Stop6和Step7,直 到所有样品聚为一类为止 step8画出谱系聚类树状图 Step9根据式(16)并结合实际问题确定分类的个数及各类的成员10-12 34面板数据聚类预测方法 由于传究的二维信息数据聚癸方法分析的数据对象为截面数据,显然无法对个体发展的未来所属类别做 出推断,而基于面板数据的聚类方法却可以解决此问题.显然,如果能对事物的未来发展做出简单归兆,那么 决策者就可以通过调整、控制某些指标的发展从而对个体的未来发展做山规划以达到预期目标.面板数据聚 类预测基于对个体各个指标未来值进行预测的基础上,其方法如下 step1对个体的各项指标分別进行时间序列分析,并对T+1,T+2,…期的每个个体的每项指标值 进行外推预测 Step2选择L至T+L(L=1、2,…期的数据组成一个新的面板数据集,根据本文的面板数据聚类 方法对新面板数据集进行聚类,可以得到原始面板数据集外推第L期的聚类预测结果 4算例 为了验证本文提出的面板数据聚类方法,基于20002008年中国省际科技创新统计数据,对中国15个 省市区的创新能力进行了聚类分析.数据来源于各年度《中国科技统计年鉴》.省际科技创新指标体系涉及 9个指标,分别是:科技活动人员、R&D经费文出额、发明专利中请授权量、技术市场成交合同金额、高技 第2期 李因果.等:基于自适应权重的面板数据聚类方法 术产业规模以上企业增加值、R&D经费占GDP的比重、地方财政科技拨款、万名从业人员R&D人员、自 然科学基金面上项目经费 按照前文提出的面板数据聚类方法与步骤,本文用“R软件编写了相应的面板数据聚类方法程序.为 了对聚类结果进行对比分析,本文列出了分别基于面板数据“综合”距离的三种组合权重聚类结果,见图2 7.显然,从图2-4看,由三种单一距离确定的分类结果存在显著差异.实际上,基于经济指标发展的质量 和数量差异,对于经济管理实践中面板数据的聚类,仅仅考虑某一类距离是不可取的,否则会导致聚类结果 的不合理.图57是基于综合距离并给予一种不同的主观权重的聚类结果,可以看出,主观权重系数对聚类 结果有着显著旳影响,说明了决策者对决策规则的偏好将会对决策结果产生有接影响.本文在专家调查的基 础上,通过AHP法得到了20002008年中国省际科技创新统计指标三种距离的主观权重系数,即:W (0.5,0.375,0.125),此权重系数表明:决策者最看重的是指标发展的绝对水平,其次指标发展的质量水平(即: 增速水平).此时的聚类结果为图7 面板数据聚类对状图 Ward方法区氏距离主观权重=(1,0,0) 面板数据聚类树状图 Waud方法:欧氏距离主观权重-(0,1,0) 10 5 山车吉林安飯福建山西河北黑龙江内家古江西天津辽宁浙江北京二海江苏 黑龙江山西浙江上海安徽山东天津北京江苏辽宁内蒙古江西吉林河北福建 体 数据期间:2000年-2008年 个体 数据期间:2000年-2008年 图2科技创新能力面板数据聚类:绝对距离 图3科技创新能力面板数据聚类:增速距离 板数据聚关树状图 面板数据聚类树状图 Ward力法:欧氏距离主观权重=(00,1) Ward方法:欧氏距离三观权重=(0.3330.3330.333 IS 北哀黑龙江汇芬訢江古林山西訶北山上海江西天津内蒙古安黴福建 山东山西河北黑處江江西天津渐江网蒙古北京辽宁江苏吉林上海安澈福建 数据期问:2000年-208年 数据期问:2000年2008 图4科技创新能力面板数据鬟类:波动距离 图5科技创新能力面板数据聚类:三种距离组合a 面板数据聚类对状图 盯板数据聚类树状刻 Wrd方法:欧氏距离三观权重=(05.0.25,0.25) Ward方法:欧氏距离主观权重=(0.5,03750.125) 吉林黑龙江上海安徽福建山车江西天津北京内蒙古浙江辽宁江苏山西河北 山东宏循江淅江天津内蒙口辽中山西河土黑龙汇吉林上海福建北京汗蕊 个体 个体 据期问:2000年-208年 数期间:2000年-2008年 图6科技创新能力面板数据聚类:三种距离组合b 图7科技创新能力面板数据聚类:三种距离组合c 394 系统工程理论与实践 第33卷 由图7,可以将15省市的科技创新发展状况分为4类分别是:{山东},{安徽、江西、浙江、天津、內 蒙古、辽宁}.{山西、河北},{黑龙江、吉林、上海、福建、北京、江苏}.从2000207年中国省际科技创 新统计指标的实际数据表现看,北京、上海、江苏、山东、浙江等5省市大部分科技创新指标发展的绝对量 水平要高于其他省市,但黑龙江、福建、吉林三省的科技创新指标的增速水平相对其他省市具有较大的优势. 因此、如果在决策者对科技创新的增速指标也比较重视的情况下,黑龙江、吉林、上海、福建、北京、江苏等 6省市可以划归为一类;而山东省由于指标的增速水平相对较低而单独划为一类.山西、河北两省划为一类 是基于它们科技创新指标的绝对量水平和增速水平都比较接近.从科技创新指标的绝对量水平、增速水平和 波动水平三方面综合考虑,图7所形成的分类结果与20002008年中国省际科技创新指标动态发展的现实 状况是较吻合的 根据34节提出的面板数据聚类预测方法,本文基于非线性回归先对各指标20092011年的数据进行了 预测,而后对2001-2009年和20022010年树组面板数据做聚类分析,结果见图89.若将15个省市都划分 为4类,易看出,2001-2009年和2002010年两组数据的聚类结果虽有差异,但较为接近,这是由指标发 的动态非平衡变化所导致因此,决策者可以对省级科技创新面板数据进行详细的指标分析,探究造成未来几 个年度科技创新分类结果差异的主要原因,进而相关部门可以通过政策调整以影响某些指标的发展总量和发 展质量.以期达到决策者对未来省市科技创新发展的整体布局和规划目标 百板数据聚类树犬图 面板数据聚类树状图 Ward方法:欧氏距离主观权重=(0.5.03750.125) ard方法;欧氏距离主观权重=(0.5,0.375,0125) 10 山东河北吉林浙江上海辽宁安微福建山西黑龙江北夏江苏天津内蒙古江西 东上海江安徽福建山西河北古林黑龙江江苏北京辽宁天津内蒙古江 个休 个体 数据期间:2001年-2009年 数据期间:2002年-2010年 图8科技创新能力面板数据聚类预测:2001-2009 图9科技创新能力面板数据聚类预测:2002-2010 5结论 本文基于面板数据的时序特征和截面特征,提岀了一类针对经济管理问题的面板数据聚关分析方法,在 考虑面板数据“绝对量”和“相对量”及其“时序波动”特征的基础上,重新构造了针对面板数据相似性测度 的“综合”距离函数和ward聚类算法,这种聚类方法即不失合理性又兼具灵活性,研究人员可以根据实际 要求通过改变三种距离的权重系数达到不同的聚类分析目的本文所提出的面板数据聚类方法也可应用于聚 类预测,即对将来某个时期的样品进行聚类分析.显然,聚类预测可以对样品的未来所属类别提前做吕粗略 预判,尤其对于经济管理类间题,决策者可以在预测聚类结果的基础上,根据不同的目标或规划方案对样品 指标进行调整以达到预期目的 参考文献 []方开泰,潘恩沛.聚类分析M.北京:地质出版社,1982 Fang K T, Pan F P Cluster Analysis[M]. Beijing: Geological Publishing House, 1982 2 Bonzo D C, Ilennoeilla A Y. Clustering panel data via perturbed adaptive simulated annealing and genetic algorithms. Advances in Complex Systems, 2002. 5(4):339-360 3 Nielsen J D, Dean C B Adaptive functional mixed NHPP models for the analysis of recurrent event panel dataJ CoInputational Statistics and Data Alalysis, 2008, 52(7): 3670-3685 4 Ren J, Shi S L. Multivariable panel data ordinal clustering and its application in competitive strategy iden- tification of appliance-wiring listed companies(C//16th International Conference on Management Science Engineering, Moscow, Russia, 2009: 253-258 第2期 李因果.等:基于自适应权重的面板数据聚类方法 5]朱建平,陈民恳.面板数据的聚类分析及其应用!J.统计研究,2007,24(4):11-14 Zhu j P, Chen M K. The cluster analysis of panel data and its application J. Statistical Research. 2007, 24(4) 6]张可,刘思峰.灰色关联聚类在面板数据中的扩展及应月J.系统工程理论与实践,2010,30(7):1253-1259. Zhang K, Liu S F Extended clusters of grey incidences for panel data and its application J. Systems Engineering Theory& Practice,2010.30(7):1253-1259. 7]李因果,何晓群.面板数据聚类方法及应用小J.统计研究,2010,27(9):73-79 Li Y G, He Q. Panel data clustering method and applicationJ. Statistical Research, 2010, 27(9 ):73 79 ⑧8]郑兵云.多指标面板数据的聚类分析及其应用[J.数理统计与管理,2008,27(2):265-270 Zheng B Y. The clustering analysis of multiva riable panel data. and its application[J. A pplication of Statistics and Management,2008,27(2):265-270. 郭亚军.综合评价理论、方法及应用M.北京:科学出版社,2008:7274 Guo Y J. Comprehensive Evaluation Theory: Method and Application [ M. Beijing: Science Press, 2008: 72-74 10何晓群应用多元统计分析[M].北京:中国统计出版社,2010:176-197 HeX Q. Applied Multivariate Statistical Analysis[M. Beijing: China Statistical Press, 2010: 176-197 11 Everitt B S, Landau S, Lesse M. Cluster AnalysisM. 4th ed. Arnold, London, 2001 12高惠璇应月多元统计分[M]北京:北京大学出版社,2005:217-243 Gao H X. Application of Multivariate Statistical Analysis[M. Bcijing: Pcking Univcrsity Press, 2005: 217-243

...展开详情
试读 8P 论文研究-基于自适应权重的面板数据聚类方法.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    weixin_38743481 你的留言是对我莫大的支持
    2019-09-20
    • 至尊王者

      成功上传501个资源即可获取
    关注 私信 TA的资源
    上传资源赚积分,得勋章
    最新推荐
    论文研究-基于自适应权重的面板数据聚类方法.pdf 36积分/C币 立即下载
    1/8
    论文研究-基于自适应权重的面板数据聚类方法.pdf第1页
    论文研究-基于自适应权重的面板数据聚类方法.pdf第2页
    论文研究-基于自适应权重的面板数据聚类方法.pdf第3页

    试读已结束,剩余5页未读...

    36积分/C币 立即下载 >