--
1
《统计计算》案例1,吕晓玲
应用潜在分类泊松回归模型及EM算法分析陈述偏好数据:
以网络购物使用次数为例
1. 问题提出
随着网络的兴起,网上购物已经在人们的生活中发挥着越来越重要的作用。网上购物以
其方便快捷等特点吸引了很多购物者,但是也有一些人质疑网上购物安全性、不可触摸性等
问题。影响人们选择网上购物的因素有很多,不同的人对网上购物也有不同的态度。大学生
是网络购物这个群体的很重要的一部分,什么因素影响大学生对网络购物的选择?大学生由
于对网络购物的态度取向不同可分为多少潜在的类别?本文应用陈述偏好方法(stated pre
ference method)收集大学生网上购物的数据,并应用潜在分类泊松回归模型(latent
class Poisson regression model)及 EM 算法分析数据,回答以上两个问题。
2. 数据收集
源于心理学的陈述偏好调查已经被市场营销中研究消费者行为广泛应用。虽然在进行每
个具体研究时操作不尽相同,总的原则是事先设定几个重要因素,每个因素有若干水平,然后
提出一些假想情景,每个情景是这些因素不同水平的组合。受访者按照他们的喜好给不同的
情景打分或者排序。研究者应用模型分析数据,寻找各因素的重要性。
为了确定影响网络购物的重要因素,我们首先开展了预调查,针对购买商品的种类、价
格、邮费、卖家信用度、介绍商品详细程度以及网上购物节省时间和到货时间等因素对大学
生进行了调查,并应用简单统计分析得到了对网上购物次数影响比较显著的四个因素,分别
是购买商品的种类、价格、卖家信誉度以及介绍商品的详细程度。具体因素和因素水平如下
所示:
种类:服饰,化妆品,文体
价格:50 元,100元,150 元,200 元,250 元
卖家或网站的信誉度:1,2,3,4,5
介绍商品的详细程度:1,2,3,4,5
若每一种组合都进行调查则共有
3 5 5 5 225
组合,在这里运用了正交设计的方法
进行试验设计,共进行 75 种不同的组合,将这 75 种组合分成 25 组,每组中包含 3 个场景(分
别为 3 个不同的种类),每一个被调查者将被给定 3 个不同的场景。每个被调查者回答的问
题是在特定的场景能够在十次购物中选择网上购物的可能次数。我们总共访问了 197 名在京
大学生,得到了在 588 种场景下他们对网络购物的使用情况的有效回答。
3. 模型介绍
市场营销中常用的分析陈述偏好数据的方法是联合分析(conjoint analysis),我
们这里使用泊松回归模型,因为:(1)因变量不是受访者对场景的排序,而是使用网络购物的
次数,它是一个取值为离散整数的变量,可以假设服从泊松分布;(2)可以对泊松回归模型进
一步应用潜在分类模型分析受访者的异质性。我们首先介绍泊松回归模型和潜在分类模型,
然后介绍如何应用最大似然法和 EM 算法估计参数。
令
ij
Y
为第
i
(
Ii ,...,1
)个个体在面临第
j
(
Jj ,...,1
)种场景时的选择,服从参数
为
ij
的泊松分布。因为从平均的意义上来讲,
ij
取值越大意味着受访者越倾向于多次使用