# huawei_shenzhen-Shenzhen-North-Station-traffic-congestion-prediction
华为云比赛-深圳北站交通拥堵预测-初赛模型
- 01-训练集特征工程(gps数据已经过处理)
- 02-模型训练
- 03-测试集特征工程(gps数据已经过处理)
- 04-测试集预测
## GPS数据处理
利用postgreSQL对GPS数据进行处理、统计、清洗。形成方向、方向等特征并且做特征交叉。
## 道路数据处理
本赛题提供的训练集包括两个时间段,分别为从2019年1月到2019年3月,以及从2019年10月到2019年12月20日;空间范围限定在深圳北站周边,监测12个路段的交通拥堵指数。官方数据中的train_TTI.csv包含标签值拥堵系数、时间点、道路id、道路当前时间点的平均车速。交通拥堵指数的计算时间粒度为10分钟。
对TTI进行移动平均法构建一、二、三次移动平均等特征,合并GPS数据和道路数据形成训练集。
## 模型
本次比赛决赛采用XGBRegressor+CatBoostRegressor模型并且进行平均加权,采用randomsearch超参数搜索,比gridsearch效率要高。
## 总结
本次比赛决赛获得第二名,得益于特征工程。在模型调参时遇到瓶颈,可以深入尝试特征工程,效果会有意想不到的提升。