没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
1 引言
对威胁信息的持续跟踪与分析,已成为增强网络安全防护的一项重要举措 。
以威胁情报为主的网络威胁信息通常以网络安全文本的形式披露,包括各类网
络安全社区发布的博客、白皮书;软件厂商发布的安全公告等。然而,近年来
层出不穷的网络安全事件导致网络威胁情报海量增长。由于非结构化形式的网
络威胁情报不能被机器所理解,继续依靠人工方式从文本形式的威胁情报中识
别、提取诸如新型漏洞信息、漏洞利用方式、网络攻击工具以及攻击模式等关
键威胁信息,并进行关联分析已无法满足网络安全防御的现实需求。为此,利
用信息抽取技术,从网络安全文本中自动地抽取安全相关的实体、概念以及关
系,将非结构化的数据转换成易于共享和集成的结构化表达,形成网络安全链
接数据
[1
]
,并构建网络安全知识图谱,赋予机器认知智能以实现网络安全文本的
挖掘与智能化分析,将在网络安全主动防御体系的构建中发挥重要作用。
信息抽取作为文本挖掘的关键技术,已被广泛应用于摘要生成、自动问答 、
知识图谱等领域
[2
]
。信息抽取可细分为命名实体识别、实体关系抽取和事件抽取
3 个子任务,其中通过实体识别和实体关系抽取来获取语义三元组,是构建知识
图谱、理解自然语言的重要前提。由于网络安全领域所关注的实体包括攻击者 、
攻击方式、漏洞名、资产等特定类别,且关系抽取所针对的是此类与网络威胁
相关的特定实体间的语义表达,而现有的信息抽取系统无法适用于网络安全领
域实体与关系的抽取。为满足应用的需求,需开发面向网络安全领域的知识抽
取系统。
相较于在通用领域以及金融、法律、生物医学等领域的成功应用,面向网
络安全领域的知识抽取研究才刚起步。2018 年,第十二届国际语义评测比赛中
的任务 8 旨在运用自然语言处理技术实现网络安全文本的语义信息抽取
[3
]
,其中
包含了针对恶意软件相关文本中实体、关系及其属性进行标签预测的子任务。
当前面向网络安全领域的知识抽取研究是通过流水线模式进行的,即首先通过
命名实体识别来获取网络安全相关的实体
[4
]
,在此基础上再根据预定义的实体关
系类别进行候选实体对间的关系预测
[5
]
,进而得到网络安全知识三元组。尽管流
水线框架具有集成不同数据源和学习算法的灵活性,但也存在一定的问题
[6
]
:1)
关系抽取依赖实体识别的结果,而实体识别阶段产生的错误将传播到关系预测
阶段,影响关系抽取效果;2) 将实体识别与关系抽取分开执行,无法充分利用
2 个任务间的语义联系;3) 先识别实体,再进行关系预测,导致流水线框架下
信息抽取效率较低。
不同于流水线框架,实体与关系的联合抽取旨在对 2 个任务同时建模,当
前实体与关系的联合抽取得到研究者的广泛关注
[7
]
。早期关于联合抽取的研究依
赖复杂的特征工程以及自然语言处理工具,随着深度神经网络的广泛应用,研
究人员提出端到端的实体-关系联合抽取模式。现有的实体关系联合学习方法包
括基于参数共享的方法和基于序列标注的方法。前者对实体识别和关系抽取任
务通过共享编码层模型进行联合学习,其在训练时共享部分参数,此方法本质
上仍将 2 个任务分开执行,会产生冗余信息;后者将实体与关系联合抽取任务
转换成序列标注问题,基于实体-关系的联合标注策略进行建模,直接得到实体-
关系三元组
[2
]
。Zheng 等
[8
]
首次提出基于序列标注的实体与关系联合抽取方法,
并在通用领域的知识抽取中取得了较好的效果。但由于其假设一个实体只有一
个关系标签,无法适用于存在重叠关系的领域文本。为解决面向生物医学文本
实体与关系联合抽取中的重叠关系问题,曹明宇等
[7
]
改进 Zheng 等
[8
]
提出的联合
标注模式,在药物-药物关系抽取中取得了较好的效果。通过类比生物医学文本
发现,在网络安全文本中同一个实体也可能参与多个语义关系,因此面向网络
安全领域的实体与关系联合抽取中也存在重叠关系问题。
尽管端到端的神经网络模型在诸多任务中性能突出,但其在实际应用中依
赖大规模的标签数据。相较于通用领域大量可获取的标注语料,网络安全领域
的标注语料极其缺乏,导致同一模型应用于网络安全领域的实体识别与关系抽
取任务时效果不佳。而不需要标签数据的无监督学习方法性能通常弱于监督学
习。为此,面向网络安全领域的语料标注仍然是提升实体识别与关系抽取性能
的一项关键任务。然而针对网络安全文本的标注通常存在两方面的问题: 1) 需
要网络安全领域的专家或具备一定网络安全知识的从业人员才能完成对网络安
全文本的标注;2) 相较于通用领域的文本语料,网络安全文本中含有更多的对
象实例,因此需要投入更多的人工成本去标注。为减轻人工标注数据的负担,
主动学习算法能够从未标注数据池中增量地采样出富有信息的样本,由专家进
行标注后补充到标签数据集中,并通过迭代训练提升模型学习的性能。然而,
尽管现有的主动学习算法在数据分类任务中性能良好,但此类采样策略应用于
具有丰富标签空间的序列标注任务时将变得极其复杂。
为解决网络安全领域知识抽取中存在的上述问题,本文提出一种融合对抗
主动学习的实体与关系联合抽取方案。基于联合标注策略将实体识别与关系抽
取任务转化为序列标注问题,并通过对抗学习机制训练一个判别器模型来筛选
出富有信息量的样本进行人工标注,实现以较低的数据标注代价完成联合模型
的训练。本文的主要贡献包含 3 个方面。
1) 不同于流水线模式的网络安全实体识别与关系抽取,本文将 2 个子任务
联合起来建模为序列标注,提出一种基于端到端的网络安全实体与关系联合抽
取框架。
2) 面向网络安全文本知识抽取,基于长短时记忆( LSTM,long short-term
memory neural)网络和双向长短时记忆(BiLSTM,bidirectional LSTM)网络,
提出一种融合动态注意力机制的 BiLSTMLSTM 序列标注模型。
3) 针对网络安全领域标注语料缺乏的问题,基于主动学习思想,并融合对
抗学习机制,提出一种对抗主动学习框架下的待标注语料采样方法。
2 相关工作
随着网络威胁的激增,详细的威胁内容以非结构化的自然语言文本形式存
在,诸如安全报告、白皮书、博客、公告等。而针对此类威胁信息的分析与集
成对于安全人员来说是烦琐且复杂的工作。因此,对威胁信息的自动化提取是
亟待解决的问题。Liao
[9
]
开发了一套 iACE 系统,用于自动地从威胁情报文本中
提 取 威 胁 失 陷 指 标 ( IoC,indicator of compromise ) 及 其 上 下 文 关 系 。
Panwar
[10
]
基于 IoC 的提取框架,可以从 Cuckoo 沙箱结果中生成结构化威胁信
息表达(STIX,structured threat information expression )格式的 IoC。Gasmi
等
[11
]
将自然语言处理领域中的命名实体识别方法非结构化安全信息的抽取中,结
合 LSTM 模型和条件随机场(CRF,conditional random field),提出一种基于
LSTM-CRF 的模型,对安全领域文档中相关实体,如产品、版本以及攻击名称
等 进 行 识 别 。 Chambers 等
[12
]
基 于 自 然 语 言 处 理 ( NLP,natural language
processing )的 思想 ,通 过训 练前 馈神 经网 络和 文档 主题生成 ( LDA,latent
Dirichlet allocation)模型,从社交媒体数据中提取表征攻击行为的实体,进而
实 现 分 布 式 拒 绝 服 务 ( DDoS,distributed denial of service ) 攻 击 的 检 测 。
Zhou 等
[13
]
和 Long 等
[14
]
运用端到端的神经网络并结合注意力机制,针对威胁情报
语料建立模型,训练得到 IoC 提取器,在实际的 IoC 抽取效果上表现出较高的
准确率。由于对威胁情报的利用不仅限于 IoC,威胁情报报告中提供了更多有关
网络攻击的详细信息,尤其是有关攻击者、攻击技术、攻击工具等的语义信息 。
秦 娅 等
[15
]
在 对 威 胁 情 报 语 料 分 析 的 基 础 上 , 利 用 卷 积 神 经 网 络
(CNN,convolutional neural network)获取语料字符嵌入特征,提出一种融合
特征模板的 CNN-BiLSTM-CRF 的网络安全实体识别方法,在对网络安全文本
数据涉及的人名、地名、组织名、软件名、网络相关术语以及漏洞编号的识别
上取得了不错的效果。张若彬等
[16
]
针对安全漏洞领域的命名实体,提出一种基于
BLSTM-CRF 的识别模型,并结合领域词典对识别结果进行校正,实现对漏洞
编号、漏洞名、漏洞类型、漏洞利用条件(软件供应商、操作系统、应用软
件)、攻击方式共 7 类漏洞相关命名实体的有效识别。此外,Pingle 等
[5
]
开发
了一套基于深度学习的威胁情报语义关系抽取系统,从开源威胁情报中获取语
义三元组,并与安全运营中心结合进一步提升网络安全防御能力。上述研究均
属于流水线模式,而目前尚未出现面向网络安全领域的知识联合抽取研究。
主动学习算法旨在逐步选择用于标注的样本,从而以较低的标记成本实现
模型较高的分类性能。当前主动学习领域的研究包括基于样本生成的主动学习
和基于池的主动学习。基于样本生成的主动学习方法属于生成模型范畴,通过
生成富有信息的样本,再由专家进行样本标记。Zhu 等
[17
]
首次通过生成式对抗网
络(GAN,generative adversarial network)来合成待标注样本,建立主动学习
模型。但由于 GAN 模型存在训练困难以及模式崩坏的情况,生成的样本可能不
满足真实样本的数据分布,当生成无意义的样本时,很难对其进行人工标注。
因此,此类方法依赖于生成样本的质量和多样性。
基于池的主动学习是从数据池中筛选样本进行人工标注,当前基于池的主
动学习算法是主动学习的主要研究领域,并已在图像分类、语音识别、文本分
类以及信息检索等诸多实际场景中得到广泛应用。基于池的主动学习方法中具
有代表性的采样策略包括基于不确实性的方法、基于集成的方法以及基于核心
集的方法等。Culotta 等
[18
]
利用最小置信度准则评估线性 CRF 模型在序列预测
任务上的不确定性,实现主动学习算法在序列标注任务上的应用。Houlsby 等
[19
]
提出了一种贝叶斯不一致主动学习算法,其中采样函数通过训练样本关于模型
参数的互信息来进行不确定性度量。Gal 等
[20
]
通过揭露不确定性和正则化之间的
关系来度量神经网络预测中的不确定性,并将其应用于主动学习。Sener 等
[21
]
提
出基于核心集的主动学习算法,该算法使采样数据点和训练模型的特征空间中
未采样点间的欧几里得距离达到最小化。Kuo 等
[22
]
提出一种基于集成的主动学习
算法来表示不确定性,但该算法容易造成对样本的冗余采样。此外, Shen 等
[23
]
将深度主动学习算法运用于命名实体识别任务中,并比较了最小置信度算法、
贝叶斯非一致主动学习和最大归一化对数概率这 3 类采样策略的性能。
3 方法描述
3.1 模型架构
本节对所提模型进行详细描述,模型整体架构如图
1
所示。模型由 2 个模块
组成:实体-关系联合抽取的序列标注模块和对抗主动学习模块,其中联合抽取
模块包含表示层、编码层、动态注意力层、解码层。
对于三元组联合抽取模块,首先,在表示层利用 word2vec 基于所收集的
网络安全文本训练得到词向量表,将输入序列映射成对应的词向量表示,此外,
获取每个词所对应的字符特征向量,并将其与词向量进行拼接,组成模型的输
入;然后,利用 BiLSTM 作为编码层,得到输入数据的特征编码,并结合动态
注意力机制进一步捕获序列的上下文依存特征,将所得注意力向量输入 LSTM
解码层得到标签序列的向量表示;最后,根据 softmax 分类器的标签得分来输
出文本的标签序列。在对抗主动学习模块,基于 BiLSTM 得到标注语句与未标
注语句的特征向量,将其输入判别网络通过比较数据分布的相似性,筛选出需
要标记的数据交由专家进行标记,并将标记后的数据加入标签训练集中,以此
对联合抽取模型迭代进行训练。
3.2 标注策略及匹配规则
本节对所采用的标注策略进行详细阐述。Zheng 等
[8
]
首次将实体与关系的联
合抽取问题转换成序列标注任务,提出了实体与关系的联合标注策略。然而,
由于其无法解决重叠关系问题,曹明宇等
[7
]
在其基础上改进了联合标注策略,能
够较好地解决部分情形下的重叠关系问题。在类比网络安全文本与生物医学文
本的领域特性基础上,本文采用曹明宇等
[7
]
提出的标注策略及三元组匹配规则,
在实现网络安全实体-关系联合抽取的同时,解决联合抽取中部分情形下的重叠
关系问题。
图 1
剩余16页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3663
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 01-spring-boot-overview
- vgg模型-基于深度学习AI算法对猫的动作行为识别-不含数据集图片-含逐行注释和说明文档.zip
- vgg模型-CNN图像分类识别人脸-不含数据集图片-含逐行注释和说明文档.zip
- Detect It Easy v3.03
- shufflenet模型-基于人工智能的卷积网络训练识别鞋类-不含数据集图片-含逐行注释和说明文档.zip
- shufflenet模型-python语言pytorch框架训练识别樱桃新鲜度-不含数据集图片-含逐行注释和说明文档.zip
- 优质资源,让 .NET 开发更简单,更通用,更流行
- resnet模型-基于深度学习对苹果颜色识别-不含数据集图片-含逐行注释和说明文档.zip
- mobilenet模型-基于图像分类算法对食物美食识别-不含数据集图片-含逐行注释和说明文档.zip
- ImmunityDebugger
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功