滑行poc-aws
AWS Assignment for Innovation Architect:从TLC检索数据并为不同用户生成插图。
这个项目是什么?
如前所述,这是一个用于AWS采访的项目。
因此,所有事物都基于aws。
数据预处理
脚步:
创建一个名为taxi-poc格式的s3存储桶,并创建一个EMR集群。
将format_and_split_csv.py添加到集群的步骤中,直到完成。
现在,您将在s3上以的士格式设置存储桶中获得漂亮的数据。
额外的:
从2015年到2018年,开放数据中的数据格式不一致。 因此,我们必须探索数据格式:
运行scan_data_types.py以获取所有标头类型。
还有一个问题:某些数据没有取放地点纬度和经度。 他们只有位置ID。
运行scan_location_latlng.py以从Google API获取位置的经纬度。
数
评论1
最新资源