商品用户行为数据处理中的数学问题(3)

所需积分/C币:35 2019-03-15 23:04:02 1.58MB PDF

随着网络时代不断的发展,网购已成为人民大众主要购物方式,基于大数据预测用户网购行为成为了重要的问题,本文通过所给 20000 用户数据对其商品行为进行预测并给出评价指标。
以ut-8格式编码;包含 user id和 item id两列(均为 string类型),要求去除重复。例 如 user id I item id 100000 2345 100000 2478 100001 127900 100002 207245 评估指标 釆用经典的精确度( precision)、召回率( recall〕和F1值作为评估指标。具体计算公式 如下 Precision In(PredictionSet, Referenceset) I PredictionSetl n(PredictionSet, ReferenceSet) R ecall ReferenceSetl 2× Precisi0 n x recall Precision Recall 其中 Prediction Set为算法预测的购买数据集合, Referenceset为真实的答案购买数 据集合。我们以F1值作为最终的唯一评测标准 12问题重述 (1)利用D分析U中用户对P中商品行为的影响因素(时间,地点,商品类型等), 建立U中用户对P中商品行为的影响因素关系的数学模型; (2)利用D来构造U屮用户对P屮商品的对于不同时间推荐模型。选手要使用训练 数据建立摧荐模型,并输出用户在接下来一天对商品子集购买行为的预测结果,给出精 度说明。 (3)利用υ来构造U中用户对P中商品的对于不同地点推荐模型。选手要使用训练 数据建立推荐模型,并输出用户在接下来一天对商品子集购买行为的预测结果,给出精 度说明。 (4)利用D来构造U中用户对P中商品的对于不同时间和地点推荐模型。选手要使 用训练数据建立推荐模型,并输出用户在接下来·天对商品了集购买行为的预测结果, 给出精度说明。 (5)对于营销方给岀销售最优策略。 2问题分析 21问题1的分析 问题一要求建立U中用户对P中商品行为的影响因素关系的数学模型,由于问题 所给的用户行为数据量较大,所以先进行数据预处理,将浏览量巨大但没有购买数据 的用户数据剔除,将有加车,收藏,购买但没有浏览的顾客进行标准化数据处理。然 后利用冷启动推荐算法对用户行为进行聚类,对用户群休进行相似性分析,结合艾氏 遗忘曲线建模求解。 22问题2的分析 本题要建立不同时间针对不同用户的商品推荐模型。时间变化主要分为日期的变 化和一天24小时的变化,由于日期变化造成的购物行为特征并不鲜明,所以主要讨论 针对一天24小时的推荐模型。根据人的遗忘出线,我们利用12月16日之前的数据进 行模型的建立,利用17日和18日的数据对所求的19日数据进行预测。 23问题3的分析 本题建立对于不同地点的推荐模型,观察到不是所有数据都存在地理位置信息 的,所以先对数据进行预处理,将有记录地理位置的数据筛选出来,然后利用对这些 地点数据逃行聚类分析,将地点与浏览的商品类型进行联系,根据聚类结果得到推荐 模型,并给出几个聚类屮心所在地点的购买预测,得到精度分析结果。 24问题4的分析 本题旨在建立和时间地点均有关联的推荐模型,首先对数据进行预处理,将数据 较为突岀的双十二购物节当天的数据剔除,后面的数据前移,保证数据特征的准性。 出于对推荐的影响有两个因素,所以利用三维的思想,针对购买的转化率和用户的偏 好程度逃行推荐模型的建立。最后利用前三天的推荐及购买数据得到最终预测结果, 并进行分析。 25问题5的分析 本题葜求制定销售最优策略,可以利用前几问得到的结论,利用不用不同时间和 地点用户购买不同商品的喜好,进行推荐,在购买率较高的时间段加大推荐力度和活 动力度,并借鉴各大电商网站的策略,在髙峰提价,得到利润最大化,得到较好的诮 售策略 3模型假设及符号说明 3.1模型假设 1.假设商品供应始终充足 2.用户购买商品时不会被他人对商品评价影响。 3.用户整体消费行为较为理性。 3.2符号说明 符 单位 click 点击操作的用广 collect 收藏操作的用户 个 cart 加购物车操作的用户 个 购买操作的用户 个 Rate click 浏览并购买操作的用户 个 u Rate collect-pay 收藏并购买操作的用户 个 u Rate cart-pay 加购物车并购买操作的用户个 用户集 商品全集 商品子集 D 用户对商品全集的行为数据 集合 时间 小时(h) 33模型综述 反馈,优化特征集合 用户特征 数据库 特征提取 商品特 筛选和组合 特征 决策模型 推荐结果 交互特征 5 4问题一模型建立与求解 41数据预处理 特征获取为选择特征子集来增加分类精度,或者在不降低分类器精度的条件下降低 特征集维数的过程。木章根据对用户、商品、用户-商品交互的分析,可以得到一组基础 特征。按照不同的吋间跨度,对基础特征进行二次提取,可以得到与吋间问隔相关的特 征,特征维度倍数增长。髙维度的特征带来精度提升的冋时,计算复杂度也随之增加, 与此同时数据过拟合的情况也逐渐明显。因此从特征集合中选择特征子集尤为重要。 特征子集的选取过程本章采用筛选和组合,筛选剔除区分度低的特征,组合分类效 果一致性的基础特征成高阶特征。特征选择方法按照搜索策畩可以分为仝局最优、随机 搜索和启发式搜索,而基于 Trec ensemble models的特征提取模型不仅可以筛选特征, 同时可以利用树结构对特征进行合并组合。因此本文基于 Tree ensemble models对特 征进行筛选组合 通过上文的分析,特征项集合中每一个特征均是建树过程的分类条件,具体建树过 程如图4.1-1所示。对于每个用户最终是否购买某件商品,转换为二分类问题,0代表 用户没有购买商品,1代表用户购买商品。特征集合: X=[UC click,collect,UcartOpay u Rate click-pay U Rate collect-pay,U Rate cart-pay' 算法的每一个输入(x2y)其中,x为特征集合X的实例,y2={1,0}。选择cart 分类器b(x;Yn)作为基函数,预测函数为: ∑mn(x (41-1) 其中ym基函数的参数,Bm为基函数的系数,M为特征个数 用户U以概率fx) 购买商品 Tree1 是 是否加入购物车 Tree2 是 加入购物车的时 问间隔小于×天 否 Tree3 是 商品购买是否属 于热销商品 否 图4.1-1建树过程示意图 最后的结果航是产生若干棵树,每棵树上有很多个叶子节点,每个节点对应一个特 征,每个节点训练出一个阈值,大于该阈值的特征是右子节点,小于该阈值的是左子节 点。每个叶子节点包含一部分评分信息,对应一个特征组合规则。该特征组合规则指的 是从根节点到叶子节点的路径,将组合筛选的特征集合更新,新的特征集合为X 传统的推荐算法诸如协同过滤算法,基于内容的推荐算法,混合推荐算法等都是基 于用户对推荐结果的反馈来分析用户对商品的喜好程度。分析购买过程中的行为特征比 单纯利用购买结果,更能冇效地提高推荐精度。 通过对用户网购行为特征筛选和组合,我们得到了一个行为特征集合Ⅹ。根据特征 集合预测用户是否购买某物品,预测的结果可能是“购买”,也可能是“不够买”。因 此,可以将预测用户是否购买商品转化为一个二分类问题,购买非为1,不够买为0 为了增强算法的稳定性,避免因个别特征造成预测结果的较大波动设定预测函数为: (41-2) z=6o+61x1+2x2+…+ m-n (41-3 其中,{0,1,…,0n}为特征数据集T对应的系数。g(z)为用户对某商品的购买概 率,当g(z)的值高于设定的阈值时判断用户会购买,否则不会购买。 设条件概率P=(y=1x)=p为特征数据x的情况下,某时间的概率,则逻辑回归 7 的可以表示为: 1 P(y=1|x,日)= hg(x) (41-4) 1 对于单个样本 P(ylx,0)=(he(x))(1 (41-5) 其最大似然函数为: L(6|x,y) ∏)y(-() 41-6) 1 Log似然为: )=log(L(1,y)=>ylog(he(x)+(1-y)g(1-bo(x)(41-7 定义损失函数: ()=-[ylog(ha(x)+(1-y)og(1-h(x) (41-8) 所以对于系数{60,61,…,m}地求解,采用梯度下降的方法可得: (0) (41-9) 回归方程与回归曲线如下图3.7所示,逻辑曲线在z≡0时,十分敏感,在z>0 和z<0处,都不敏感,预测值限定在(0,1) 对于数据集T={(x,y1),(x2,y2),…,(xM,y),特征集为X,用户对商品的购买概率 通过g(z)计算得到,阈值通过算法训练获得,设为F。 0.9 0.8 0.7 0.6 0.5 04 0.2 0.1 54 0 3 5 图1.1-2用户行为模型曲线 表4.1-1提取所得特征表 基础特征 交互特征 时间间隔特征 用户对商品的点击次数商品被点击量 One day click Four day click 用户对商品的购买次数商品被购买量 One day buy Four day buy 用户对商品的收臧次数商品被收藏量 One day collect Four day collect 用户对商品的加购次数商品被加购量 One day addtocar Four day addtocar 用户对商品的交互次数商品被购买的频率 Two day click Five day click 用户对商品的操作天数商品出现天数 Two day buy FiⅤ e day buy 交互频率 商品被操作次数 Two day collect Five day collect 点击量 点击人数 Two day addtocar five day addtocar 购买量 购买人数 Three day click six day click 收藏量 收藏人数 Three day buy six day buy 加购量 加购人数 Threeday collect six day collect 点击购买转化率 点士购买转化率 Three day addtocar six day addtocar 收藏购买转化率 收藏-购买转化率 seven day click 加购购买转化率 购物车购头转化率 seven day buy 总操作数目 seven dav collect 活跃天数 seven day addtocar 用户活跃度 购买频率 412数据剔除 巨大的数据量必定会带来计算速度和计算准确性不足得问题,为了更好的对用户商 品行为进行预测,我们对数据进行了预处理,将不同用户特征进行整理,用户特征反映 的是用户整个购物习惯与购物规律,而与具休哪件商品无关,比如用户是不是喜欢浏览 胸物网站、用户的购物频率等,通过用户特征我们发现,部份用户浏览量过大,超出了 合理水平,我们认为这是些人使用爬虫或进行些作弊造成的,此时他们已经不是正 常消费用户;同时,这些用户数据的存在会对我们模型的求解造成较大影响,导致预测 偏离实际较大,所以我们将这些异常数据剔除掉,并给出异常数据剔除标准,如图A.1 1 保留 用户购买量 除 用户浏览量 保留 图4.1.2-1剔除异常数据规则示意 我们先将浏览量巨大的用户筛选出来,将这些用户的购买记录进行筛奁,若有较多 的购买记录,则认定为保留用户;若用户浏览量巨大的同时用户购买量极小,则将该用 户数据剔除。这样就保证了我们所保留的数据大部分为正常用户数据,能够给出较为合 理的预测结果。 4.1.3数据填充 由于所给数据只记录用户点击行为,对于直接进行购买线浏览等行为存在一定影响, 易造成点击量为零但浏览量等不为零的情况,针对这种数据现象,我们采用数据补充的 方法,示意图如图4.1.3-1所示 购买一次 购买一次均 值 8(8.520) 有购买 购买多次 购买多次均 8×购买活 值 浏览量为0 有加购无购 有加购无购 买 买均值 4(4.705) 只有收藏 只有收藏均 值 2(2.202) 图4.1.3-1数据填充规则图 10

...展开详情
img
  • 签到新秀

    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 分享宗师

    成功上传21个资源即可获取

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐