美团点评技术团队
机器学习中的数据清洗与特征处理综述
caohao ·2015-02-10 11:30
背景
随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一
个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支
持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技
术,例如个性化推荐、筛选排序、搜索排序、用户建模等等,为公司创造了巨大的价值。
本文主要介绍在美团的推荐与个性化团队实践中的数据清洗与特征挖掘方法。主要内容已经在内部
公开课"机器学习InAction系列"讲过,本博客的内容主要是讲座内容的提炼和总结。
综述
如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部
分,即“数据清洗=>特征,标注数据生成=>模型学习=>模型应用”中的前两个步骤。
灰色框中蓝色箭头对应的是离线处理部分。主要工作是
从原始数据,如文本、图像或者应用数据中清洗出特征数据和标注数据。
评论0
最新资源