2017 年第四届中国可视化与可视分析大会
数据可视分析挑战赛 挑战 1
(ChinaVis Data Challenge 2017)
背景介绍
“恭喜中大奖了!”、“您可以兑换银行卡积分了!”、“您需要无抵押银行贷款
吗?”这类垃圾短信相信你一定收到过不少。用“伪基站”发送垃圾短信已成为不法分子诈
骗、推销的新手段,特别是一些附带恶意链接的木马短信,用户点击后还会造成手机中毒和
网银盗刷等现象。“伪基站”即假基站,能够搜集以其为中心、一定半径范围内的手机卡信
息,利用 GSM 验证漏洞伪装成运营商的基站,冒用银行、运营商、国家机关或他人号码,
强行向用户发送诈骗、色情、赌博、广告等短信息。不法人员利用伪基站发送短信,不仅干
扰公共频率资源,影响人们的正常通讯,而且通过群发短信的方式发送内容不受控的短信息,
严重侵害了社会秩序。
QHNet 公司推出手机卫士应用软件,安装该软件的用户在收到垃圾短信时可以主动上报,
这样手机卫士应用软件积累了大量被用户标注的垃圾短信样本数据,其中每一条短信都包含
正文、接收时间、发送者号码以及接收该条垃圾短信前最后连接的正常合法基站信息。如果
能够定位到伪基站发送垃圾短信时的位置就能帮助执法人员打击不法分子,但为了保护用户
隐私,手机卫士应用软件并未获取用户的精确 GPS 位置信息。那么如何确定伪基站的位置
信息呢?目前,我们将用户主动上报垃圾短信前最后连接的合法基站的位置,近似作为伪基
站的位置。但伪基站有非常强的流动性,因此依据近似位置和传统数据分析方法,仍然很难
准确把握伪基站的活动规律。QHNet 公司这次将部分垃圾短信样本提供出来,希望您使用可
视分析方法,揭示伪基站的行为模式,为有关部门建言打击伪基站的有效方案。
数据说明
本次比赛提供北京市被标记是伪基站发送的垃圾短信的样本数据,时间跨度为两个月,
数据格式为 csv,共有 300 多万行记录,数据大小为 753M(压缩前)。数据中可能存在少
量缺失和错位的情况,请参赛者自行甄别处理。