1 引言
过去的 15 年内,智能手机的保有量呈现出爆炸式的增长态势,截至 2019
年 6 月,Android 以 79.90%的市场占有率成为中国移动终端操作系统市场的“领
头羊”。为了满足用户的个性化需求,各类 App 层出不穷,其中免费 App 更是
成为热门需求。Google Play 中提供多达 55 类 App,内容涵盖教育、生活、娱
乐、健康等诸多方面,已经成为人们生活中不可或缺的一部分。
然而,在满足用户日常教育、生活、娱乐等需求的同时,用户隐私泄露问
题日益突出
[1
]
。基于权限管理的 Android 操作系统隐私泄露问题逐渐暴露,一些
免费 App 的开发商更是通过在 App 中植入非主业务第三方库的手段获取用户隐
私信息从而谋取利润,从用户的角度考虑,用隐私信息交换 App 服务是不可接
受的。近年来,App 盗用隐私信息造成用户生命财产安全受损的事件屡见不鲜。
已有研究成果表明
[2
]
是动态检测方案的有效
手段。然而,已有的研究方案大都存在以下几个问题: 1) 随着 App 的升级更新,
新型恶意应用程序和非主业务第三方库不断涌现,传统检测方案效果和效率逐
渐变差;2) App 中的第三方库检测和恶意应用程序检测无法得知用户的隐私信
息发送给哪些第三方;3) App 级别的粗粒度检测方案不能满足检测 App 的每个
数据分组泄露用户隐私信息的问题。
为了解决上述问题,本文提出了一种基于词频-逆文本频率(TF-IDF,term
frequency-inverse document frequency)模型和层次聚类方法的隐私泄露评估
方案 HostRisk。该方案通过捕获用户移动设备端中 App 的网络流量特征,基于
TF-IDF 模型计算 App 内域名的业务相关性,同时基于平均连接的凝聚型层次聚
类方法优化未能表现出主业务相关性行为特征的 App 主业务域名的业务相关性
得分,并根据 App 内的域名业务相关性排名表计算域名的隐私泄露程度,通过
加权平均的方式评估 App 泄露用户隐私的风险。基于 TF-IDF 模型的业务相关
性计算方法会根据域名的行为特征计算域名业务相关性,但存在部分主业务域
名未能表现出与其相关的行为特征,例如与 App 不频繁交互的主业务域名,单
独考虑行为特征并不能充分表现其业务相关的属性,进而使用基于平均连接的
凝聚型层次聚类方法进行调整和优化。App 中的域名隐私泄露风险评估是隐私
保护的前提,通过评估的结果实现不同程度隐私泄露风险域名的访问控制,从
而达到用户隐私保护的目的。
本 文 以 Android 平 台 为 例 , 实 现 了 基 于 虚 拟 专 用 网 络 服 务 ( VPN
Service,virtual private network service )框架的 App 流量抓取 HostRisk 客户
端和后台服务器,通过实验验证了该方法的有效性。本文的主要贡献如下。
1) 提出一种基于 TF-IDF 模型和层次聚类方法的隐私泄露评估的方案,通过
域名的行为特征等考虑其危害程度。
2) 基于 Android 4.0 版本及其更高版本提供的 VPN Service 框架,实现了
用户移动智能终端 App 流量特征提取客户端。
评论0
最新资源