本文是关于基于云平台的岭南通IC卡数据挖掘方法的研究,文章发表在《江苏交通科技》2014年第5期上。研究由广东岭南通股份有限公司和广东工业大学的相关研究人员共同完成。文章探讨了在城市公共交通一卡通互联互通发展的背景下,如何利用云计算技术对IC卡数据进行挖掘分析,以及提出的基于Hadoop计算模型的数据挖掘方法的可行性。
文章首先指出了城市公共交通一卡通系统的发展趋势,即跨区域多领域的应用将变得越来越普遍。岭南通公司作为行业先行者,已经实现了覆盖粤港澳地区城市公共交通一卡通的互联互通。为了进一步提升信息化应用水平和服务品质,岭南通公司正在部署基于大数据挖掘技术的云计算平台,旨在为不同用户提供一个基于交通信息的共享服务平台。
数据挖掘的需求和技术方面分析表明,以往基于数据统计的“小数据”模式已无法满足现代公共交通信息化应用的需求。因此,文章提出了利用大数据思维模式和人工智能进行IC卡数据的专业分析和处理,目的是挖掘数据的内在价值,提高交通出行效率和管理水平。
文章指出,国内外学者在IC卡数据分析与利用领域已经开展了一系列研究,为后续研究者提供了理论基础和宝贵经验。然而,现有研究仍存在不足,需要进一步深入研究以适应大数据环境下的挑战。
在技术层面,文章分析了Hadoop计算模型作为数据挖掘平台的可行性。Hadoop作为一个开源框架,允许分布式处理大量数据集的软件工具,具有高度的扩展性和容错性。Hadoop的核心是HDFS(Hadoop分布式文件系统)和MapReduce编程模型。HDFS负责数据存储,能够将数据保存为多份副本,从而保证数据的安全性和可靠性。MapReduce则用于处理和生成大数据集。
文章提出,基于Hadoop的岭南通数据挖掘模型分为三层结构:云计算服务层、数据挖掘处理层和用户层。云计算服务层提供分布式并行数据处理和云存储服务;数据挖掘处理层包含数据的预处理以及数据挖掘算法的并行化,这对于大数据挖掘至关重要;用户层则接受用户请求,与中下层交互,并向用户提供最终数据挖掘结果。
文章还提到,在Hadoop平台上进行数据挖掘需要解决MapReduce模式的一些缺点,如缺少全局性、不允许随机写操作和任务生命周期短等问题。为解决这些问题,可以采用数据库的持久化方法,并将抽取出来的数据对象自动持久化到数据库。
此外,文章强调了大数据预处理的重要性,包括数据抽取、转换、清洗和集成等操作,以提高数据挖掘的质量和效率。文章还提出了一些关于数据挖掘算法并行化的深入研究方向。
本文通过分析和研究,提出了基于云平台的IC卡数据挖掘方法,并详细论述了其模型构建和实现的可能性,旨在通过数据分析挖掘提高城市公共交通系统的服务水平,为城市公共交通的信息化管理提供参考和指导。