含有两个部分,测试集和训练集,测试集含有8607230条数据,训练集有29118021条数据,对应的属性分别如下:row_id表示数据对应的id,在预测时无作用,x,y表示对应的经纬度,而accuracy表示测量进度,time表示时间戳(1970年1月1日起始),place_id为签到位置对应的id。其对应的数据处理流程如下:
1、首先获取数据
2、数据处理(时间戳转化成对应的年月日,过滤掉签到次数少的地方,认为3次及以下为少)
3、筛选特征值目标值
4、数据集划分
5、预估器训练
6、模型评估与调优
我的博客内更新了使用KNN邻近算法的机器学习案例,并筛选了对应经纬度用户的数据作为训练集和测试集,从而进行预测。由于各个特征之间不存在线性关系,读者可以根据具体需求做对应的数据进行处理并且选用更为合适的算法进行处理,例如:随机森林、XGBoost或神经网络等等。