• 数据从哪里来？

– 我们知道数据来源，比如网站，APP或者工业设备（比如卡口拍摄设备），实现实时

数据采集，它首先有非常重要的一点就是所谓的埋点，也就是说，埋点，在网站的哪

个页面哪些操作发生时，前端的代码比如javascript或者app android/ios，就通过网

络请求Ajax; socket向后端的服务器发送日志数据。

如果是卡口信息，那么每次拍摄的信息都会传输到服务器端。

– 首先就是说网站或者页面设置埋点，那么就是你要跟前端的开发人员约定好，在哪些

页面哪些操作发生的时候，网站的话就通过ajax引擎，APP的话就通过Socket网络请

求，向后端的服务器发送指定格式的日志数据。卡口数据的话，是和厂商定制数据格

式的，数据以指定的格式向服务器发送实时的数据。

– 接着通过Flume监控指定的文件夹，转移到HDFS里面去，实际大多数是放在Hive中

因为Hive还有计算的能力，还有另外一条流程，实时数据，通常都是从分布式消息队

列集群中读取的，比如Kafka，实时的log，实时的写入消息队列中，然后再由我们后

端实时数据处理程序(storm、spark streaming)，实时从kafka中读取数据，log日

志（架构图）

车流量监控项目1