没有合适的资源?快使用搜索试试~ 我知道了~
一种结合GAN的定向口令猜测方案.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 68 浏览量
2022-11-28
20:26:18
上传
评论
收藏 313KB DOCX 举报
温馨提示
试读
13页
一种结合GAN的定向口令猜测方案.docx
资源推荐
资源详情
资源评论
随着互联网时代的飞速发展,人类许多传统的生产生活方式都发生了空前
的改变,各类信息技术更是将社会的数字化程度大幅提高。与此同时,各类信息
安全隐患问题也随之而生,身份认证的重要性更加不容忽视。身份认证是保障
用户个人信息安全的第一道防线,在很多信息系统中甚至是惟一的一道防线,而
基于口令的安全验证方式作为最基本且应用最为广泛的身份认证方式,更是起
着举足轻重的作用。
随着信息的爆炸式增长,越来越多的服务需要通过口令进行保护,更有越来
越多的用户个人信息被储存至网络空间。这些信息面临着被泄露的风险,而在
信息泄露的同时,数字时代的攻击者便有可乘之机。用户个人信息中往往含有
一些未被发掘的潜在联系,若被攻击者利用,则可能会导致很严重的后果。比如,
据国外媒体 Inverse 报道,美国著名运动品牌 Under Armour 的 MyFitnessPal
服务被黑客攻击,1.5 亿用户数据被泄露。在此次数据泄露事件中,黑客可获得
的用户数据包括用户名、邮箱地址以及年龄等常规信息
[1]
,虽然这些信息单从表
面看并不存在风险,但却会被不法分子加以利用,从而做出针对用户的威胁行为,
如 针 对 性 市 场 营 销 。 各 种 新 服 务 络 绎 不 绝 的 上 线 ,都 会 让 个 人 可 标 识 信 息
(Personal Identifiable Information,PII)数据 集 更 加 庞 大 ,这 意味着 数 据 之 间 的
关系网会更加完善,那么数据之间的潜在联系会更容易被黑客所提取,从而“窥探”
到用户的潜在行为。若要在此种环境下保护用户的信息安全,就要试图研究和
了解数据集中数据的来源及构造原理。
由于人类的记忆能力有限,通常情况下只能记忆 5~7 个口令
[2]
,迫使用户不
可避免地采取如下存在安全隐患的行为:低信息熵弱口令的使用
[3]
、利用个人信
息构造便于记忆的口令
[4]
以及同一口令在多个网站中的重复使用
[5]
。口令虽然
容易记忆,但作为随机变量其概率分布不均,因此熵值不高
[6]
。为研究口令安全,
学 者 们 提 出 了 各 种 口 令 猜 测 概 率 模 型 ,如 Markov
[7]
和 概 率 上 下 文 无 关 文 法
(Probabilistic Context Free Grammar,PCFG)
[8]
等。这些模型均运用于传统概率
猜测算法,猜测过程不借助用户的个人信息,而是关注于用户会采取流行口令的
行为,攻击者一旦拥有泄露的口令文件,其攻击目标则会尽可能多地猜测出文件
中的口令。区别于传统漫步猜测模型,定向猜测模型在漫步猜测使用流行口令
行为的基础上,还会使用用户个人信息构造口令以及口令重复使用等危险行为
[9]
。随着大规模个人信息泄露事件的不断发生,各种类型的个人可标识信息和用
户在其他网站使用的口令都越来越容易被攻击者获取,定向猜测带来的现实威
胁日益严峻。比如,据中国互联网络信息中心(CNNIC)的 2015 年度报告,6.68
亿中国网民中超过 78.2%都曾遭遇过个人可标识信息数据泄露
[10]
。
这意味着,现有建立在那些漫步猜测概率模型
[7-8]
之上的口令生成规则
[11]
和
口令强度评价算法
[12]
,只考虑了十分受限的离线猜测威胁,而无法防御越来越现
实、危害越来越大的定向在线猜测攻击,并且与传统方法相比,神经网络方法在
口令猜测领域更为准确和实用。文献[13]提出的多源深度学习模型 GENPass,
将神经网络与 PCFG 相结合,从单个数据集学习时,该模型比单独使用神经网络
模型匹配率提高了 16%~30%;文献
[14]
提出采用循环神经网络(Recurrent Neural
Network,RNN)与 PCFG 相融合的混合猜测模型。该模型破解率始终显著高于
传统的 PCFG(10
7
量级猜测数下)和 Markov 模型(10
6
量级猜测数下),为提高口
令猜测效率提供了潜在的新途径。笔者在文献
[14]
提出模型的基础上,对定向猜
测中用到的个人可标识信息进一步划分,并结合生成式对抗网络,以提升口令猜
测的成功率。为了使生成的猜测口令更接近真实口令,笔者对 TarGuess-I
[15]
模
型中所用到的个人信息分类中的用户名进一步划分:除了单纯按照数字、字母
段划分之外,对用户构造的带有用户行为特征的字符串也进行划分,从而避免合
并用户行为特征。将真实口令经过模型解析后的真实规则再利用生成式对抗网
络进行学习和处理,生成高质量伪规则集,并利用该伪规则集进行口令猜测攻击
实验。其中生成式对抗网络由生成网络以及判别网络两部分构成,分别用于猜
测口令的生成以及对猜测口令的判定,使得猜测口令的结构在接近真实口令结
构的同时,又能产生新的结构规则,从而使口令猜测成功率得到进一步的提升。
1 定向 口 令 猜 测 模型
不同于漫步口令猜测模型,定向猜测模型是在给定目标用户的前提下猜测
出该用户的真实口令。通过利用用户的个人信息提高猜测成功率,同时一定程
度上减少猜测次数,并且利用个人可标识信息标签加强了口令解析以及口令猜
测过程的针对性和有效性
[16]
。用户的个人信息可归为两类:第 1 类是用户身份
的认证凭证,主要包含用户的旧口令和其他网站泄露的口令;第 2 类即为个人可
标识信息,主要包含有姓名、出生日期、年龄、身份证号码、学历、职业等。
如何利用个人可标识信息设计定向猜测模型是现阶段关于定向猜测研究的重
点。
1.1 用户构造 口令行为 分析
用户构造口令的行为主要分为:流行口令的使用、同一口令的重复使用以
及如何使用自己的个人信息构造口令。文献
[17]
研究发现,60.1%的用户在口令中
使用了至少一种自己本人的个人可标识信息,因此利用个人信息构造口令的行
为具有较高的研究意义。笔者采用带有用户个人信息的中文用户中国铁路数据
集 12306 进行研究。中文流行口令大多由数字组成,而英文流行口令大多包含
有涵义的字母串或者键盘键位布局,根据中国人构造口令的习惯,中文流行口令
相对英文流行口令分布较为集中
[15]
,因此中文用户面临的定向在线猜测攻击的
风险也更大。经过统计,在中文口令的构造中,各类用户个人信息的使用情况如
图 1 所示,使用频率最高的个人信息是出生日期、用户名以及生日,其次是邮箱
前缀、身份证号以及手机号。
图 1
图 1 12306 口令集中个人信息使用率示意图
1.2 铁路基于 PCFG 的口令解析
文献
[8]
于 2009 年提出的基于 PCFG 的漫步口令猜测算法,是 PCFG 在口令
猜测领域的首次应用。其核心思想是将口令按照数字、字母以及特殊字符进行
划分,在口令解析阶段统计各个类型中字符串出现的概率并进行降序排列,随后
在猜测攻击阶段利用各类型的字符串概率表,重新组合各类型的字符串,生成猜
测列表。文献
[17]
于 2016 年将用户个人信息应用于猜测攻击,提出了可识别个人
可标识信息语义的定向口令猜测模型 Personal-PCFG。Personal-PCFG 在前
剩余12页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3642
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- python-leetcode面试题解之第186题反转字符串中的单词II-题解.zip
- 一个基于python的web后端高性能开发框架,下载可用
- python-leetcode面试题解之第179题最大数-题解.zip
- python-leetcode面试题解之第170题两数之和III数据结构设计-题解.zip
- python-leetcode面试题解之第168题Excel表列名称-题解.zip
- python-leetcode面试题解之第167题两数之和II输入有序数组-题解.zip
- python-leetcode面试题解之第166题分数到小数-题解.zip
- python-leetcode面试题解之第165比较版本号-题解.zip
- python-leetcode面试题解之第163题缺失的区间-题解.zip
- python-leetcode面试题解之第162题寻找峰值-题解.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功