融合对抗主动学习的网络安全知识三元组抽取.docx资源-CSDN文库

版权申诉

web安全

文档资料

146 浏览量 2022-05-31 09:27:59 上传评论收藏 217KB DOCX 举报

资源推荐

资源详情

资源评论

1 引言

对威胁信息的持续跟踪与分析，已成为增强网络安全防护的一项重要举措。

以威胁情报为主的网络威胁信息通常以网络安全文本的形式披露，包括各类网

络安全社区发布的博客、白皮书；软件厂商发布的安全公告等。然而，近年来

层出不穷的网络安全事件导致网络威胁情报海量增长。由于非结构化形式的网

络威胁情报不能被机器所理解，继续依靠人工方式从文本形式的威胁情报中识

别、提取诸如新型漏洞信息、漏洞利用方式、网络攻击工具以及攻击模式等关

键威胁信息，并进行关联分析已无法满足网络安全防御的现实需求。为此，利

用信息抽取技术，从网络安全文本中自动地抽取安全相关的实体、概念以及关

系，将非结构化的数据转换成易于共享和集成的结构化表达，形成网络安全链

接数据

]

，并构建网络安全知识图谱，赋予机器认知智能以实现网络安全文本的

挖掘与智能化分析，将在网络安全主动防御体系的构建中发挥重要作用。

信息抽取作为文本挖掘的关键技术，已被广泛应用于摘要生成、自动问答、

知识图谱等领域

]

。信息抽取可细分为命名实体识别、实体关系抽取和事件抽取

3 个子任务，其中通过实体识别和实体关系抽取来获取语义三元组，是构建知识

图谱、理解自然语言的重要前提。由于网络安全领域所关注的实体包括攻击者、

攻击方式、漏洞名、资产等特定类别，且关系抽取所针对的是此类与网络威胁

相关的特定实体间的语义表达，而现有的信息抽取系统无法适用于网络安全领

域实体与关系的抽取。为满足应用的需求，需开发面向网络安全领域的知识抽

取系统。

相较于在通用领域以及金融、法律、生物医学等领域的成功应用，面向网

络安全领域的知识抽取研究才刚起步。2018 年，第十二届国际语义评测比赛中

的任务 8 旨在运用自然语言处理技术实现网络安全文本的语义信息抽取

]

，其中

包含了针对恶意软件相关文本中实体、关系及其属性进行标签预测的子任务。

当前面向网络安全领域的知识抽取研究是通过流水线模式进行的，即首先通过

命名实体识别来获取网络安全相关的实体

]

，在此基础上再根据预定义的实体关

系类别进行候选实体对间的关系预测

]

，进而得到网络安全知识三元组。尽管流

水线框架具有集成不同数据源和学习算法的灵活性，但也存在一定的问题

]

：1)

关系抽取依赖实体识别的结果，而实体识别阶段产生的错误将传播到关系预测

阶段，影响关系抽取效果；2) 将实体识别与关系抽取分开执行，无法充分利用

2 个任务间的语义联系；3) 先识别实体，再进行关系预测，导致流水线框架下

信息抽取效率较低。

不同于流水线框架，实体与关系的联合抽取旨在对 2 个任务同时建模，当

前实体与关系的联合抽取得到研究者的广泛关注

]

。早期关于联合抽取的研究依

赖复杂的特征工程以及自然语言处理工具，随着深度神经网络的广泛应用，研

究人员提出端到端的实体-关系联合抽取模式。现有的实体关系联合学习方法包

括基于参数共享的方法和基于序列标注的方法。前者对实体识别和关系抽取任

务通过共享编码层模型进行联合学习，其在训练时共享部分参数，此方法本质

上仍将 2 个任务分开执行，会产生冗余信息；后者将实体与关系联合抽取任务

转换成序列标注问题，基于实体-关系的联合标注策略进行建模，直接得到实体-

关系三元组

]

。Zheng 等

]

首次提出基于序列标注的实体与关系联合抽取方法，

并在通用领域的知识抽取中取得了较好的效果。但由于其假设一个实体只有一

个关系标签，无法适用于存在重叠关系的领域文本。为解决面向生物医学文本

实体与关系联合抽取中的重叠关系问题，曹明宇等

]

改进 Zheng 等

]

提出的联合

标注模式，在药物-药物关系抽取中取得了较好的效果。通过类比生物医学文本

发现，在网络安全文本中同一个实体也可能参与多个语义关系，因此面向网络

安全领域的实体与关系联合抽取中也存在重叠关系问题。

尽管端到端的神经网络模型在诸多任务中性能突出，但其在实际应用中依

赖大规模的标签数据。相较于通用领域大量可获取的标注语料，网络安全领域

的标注语料极其缺乏，导致同一模型应用于网络安全领域的实体识别与关系抽

取任务时效果不佳。而不需要标签数据的无监督学习方法性能通常弱于监督学

习。为此，面向网络安全领域的语料标注仍然是提升实体识别与关系抽取性能

的一项关键任务。然而针对网络安全文本的标注通常存在两方面的问题： 1) 需

要网络安全领域的专家或具备一定网络安全知识的从业人员才能完成对网络安

全文本的标注；2) 相较于通用领域的文本语料，网络安全文本中含有更多的对

象实例，因此需要投入更多的人工成本去标注。为减轻人工标注数据的负担，

主动学习算法能够从未标注数据池中增量地采样出富有信息的样本，由专家进

行标注后补充到标签数据集中，并通过迭代训练提升模型学习的性能。然而，

尽管现有的主动学习算法在数据分类任务中性能良好，但此类采样策略应用于

具有丰富标签空间的序列标注任务时将变得极其复杂。

为解决网络安全领域知识抽取中存在的上述问题，本文提出一种融合对抗

主动学习的实体与关系联合抽取方案。基于联合标注策略将实体识别与关系抽

取任务转化为序列标注问题，并通过对抗学习机制训练一个判别器模型来筛选

出富有信息量的样本进行人工标注，实现以较低的数据标注代价完成联合模型

的训练。本文的主要贡献包含 3 个方面。

1) 不同于流水线模式的网络安全实体识别与关系抽取，本文将 2 个子任务

联合起来建模为序列标注，提出一种基于端到端的网络安全实体与关系联合抽

取框架。

2) 面向网络安全文本知识抽取，基于长短时记忆（ LSTM,long short-term

memory neural）网络和双向长短时记忆（BiLSTM,bidirectional LSTM）网络，

提出一种融合动态注意力机制的 BiLSTMLSTM 序列标注模型。

3) 针对网络安全领域标注语料缺乏的问题，基于主动学习思想，并融合对

抗学习机制，提出一种对抗主动学习框架下的待标注语料采样方法。

2 相关工作

随着网络威胁的激增，详细的威胁内容以非结构化的自然语言文本形式存

在，诸如安全报告、白皮书、博客、公告等。而针对此类威胁信息的分析与集

成对于安全人员来说是烦琐且复杂的工作。因此，对威胁信息的自动化提取是

亟待解决的问题。Liao

]

开发了一套 iACE 系统，用于自动地从威胁情报文本中

提取威胁失陷指标（ IoC,indicator of compromise ）及其上下文关系。

Panwar

[10

]

基于 IoC 的提取框架，可以从 Cuckoo 沙箱结果中生成结构化威胁信

息表达（STIX,structured threat information expression ）格式的 IoC。Gasmi

等

[11

]

将自然语言处理领域中的命名实体识别方法非结构化安全信息的抽取中，结

合 LSTM 模型和条件随机场（CRF,conditional random field），提出一种基于

LSTM-CRF 的模型，对安全领域文档中相关实体，如产品、版本以及攻击名称

等进行识别。 Chambers 等

[12

]

基于自然语言处理（ NLP,natural language

processing ）的思想，通过训练前馈神经网络和文档主题生成（ LDA,latent

Dirichlet allocation）模型，从社交媒体数据中提取表征攻击行为的实体，进而

实现分布式拒绝服务（ DDoS,distributed denial of service ）攻击的检测。

Zhou 等

[13

]

和 Long 等

[14

]

运用端到端的神经网络并结合注意力机制，针对威胁情报

语料建立模型，训练得到 IoC 提取器，在实际的 IoC 抽取效果上表现出较高的

准确率。由于对威胁情报的利用不仅限于 IoC，威胁情报报告中提供了更多有关

网络攻击的详细信息，尤其是有关攻击者、攻击技术、攻击工具等的语义信息。

秦娅等

[15

]

在对威胁情报语料分析的基础上，利用卷积神经网络

（CNN,convolutional neural network）获取语料字符嵌入特征，提出一种融合

特征模板的 CNN-BiLSTM-CRF 的网络安全实体识别方法，在对网络安全文本

数据涉及的人名、地名、组织名、软件名、网络相关术语以及漏洞编号的识别

上取得了不错的效果。张若彬等

[16

]

针对安全漏洞领域的命名实体，提出一种基于

BLSTM-CRF 的识别模型，并结合领域词典对识别结果进行校正，实现对漏洞

编号、漏洞名、漏洞类型、漏洞利用条件（软件供应商、操作系统、应用软

件）、攻击方式共 7 类漏洞相关命名实体的有效识别。此外，Pingle 等

]

开发

了一套基于深度学习的威胁情报语义关系抽取系统，从开源威胁情报中获取语

义三元组，并与安全运营中心结合进一步提升网络安全防御能力。上述研究均

属于流水线模式，而目前尚未出现面向网络安全领域的知识联合抽取研究。

主动学习算法旨在逐步选择用于标注的样本，从而以较低的标记成本实现

模型较高的分类性能。当前主动学习领域的研究包括基于样本生成的主动学习

和基于池的主动学习。基于样本生成的主动学习方法属于生成模型范畴，通过

生成富有信息的样本，再由专家进行样本标记。Zhu 等

[17

]

首次通过生成式对抗网

络（GAN,generative adversarial network）来合成待标注样本，建立主动学习

模型。但由于 GAN 模型存在训练困难以及模式崩坏的情况，生成的样本可能不

满足真实样本的数据分布，当生成无意义的样本时，很难对其进行人工标注。

因此，此类方法依赖于生成样本的质量和多样性。

基于池的主动学习是从数据池中筛选样本进行人工标注，当前基于池的主

动学习算法是主动学习的主要研究领域，并已在图像分类、语音识别、文本分

类以及信息检索等诸多实际场景中得到广泛应用。基于池的主动学习方法中具

有代表性的采样策略包括基于不确实性的方法、基于集成的方法以及基于核心

集的方法等。Culotta 等

[18

]

利用最小置信度准则评估线性 CRF 模型在序列预测

任务上的不确定性，实现主动学习算法在序列标注任务上的应用。Houlsby 等

[19

]

提出了一种贝叶斯不一致主动学习算法，其中采样函数通过训练样本关于模型

参数的互信息来进行不确定性度量。Gal 等

[20

]

通过揭露不确定性和正则化之间的

关系来度量神经网络预测中的不确定性，并将其应用于主动学习。Sener 等

[21

]

提

出基于核心集的主动学习算法，该算法使采样数据点和训练模型的特征空间中

未采样点间的欧几里得距离达到最小化。Kuo 等

[22

]

提出一种基于集成的主动学习

算法来表示不确定性，但该算法容易造成对样本的冗余采样。此外， Shen 等

[23

]

将深度主动学习算法运用于命名实体识别任务中，并比较了最小置信度算法、

贝叶斯非一致主动学习和最大归一化对数概率这 3 类采样策略的性能。

3 方法描述

3.1 模型架构

剩余16页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3663
资源: 1万+

融合对抗主动学习的网络安全知识三元组抽取.docx

网络安全专业术语对照表.docx

公需科目专业技术人员网络安全知识答案汇编.docx

医院等级保护建设网络安全建设-解决方案.docx

2019专业技术人员网络安全知识74分带答案.docx

(最新)全国大学生网络安全知识竞赛.docx

为什么说“零信任”将成为网络安全流行框架之一.docx

最新整理学院网络安全调研报告.docx.docx

2022年网络安全知识竞赛高中组.docx

最新(最新)全国大学生网络安全知识竞赛.docx

网络安全知识试题及答案.docx

2022大学生网络安全学习心得体会范文.docx

网络安全知识个人演讲稿.docx

建立一套完整的数字化网络安全监控管理系统.docx

信息安全技术网络安全等级保护基本要求云计算安全扩展要求标准说明.docx

19网络安全事件应急处理习题.docx

信息安全技术工业控制网络安全隔离与信息交换系统安全技术要求.doc.docx

2017网络安全知识竞赛试题库.docx

2018网络安全知识题目及答案.docx

基于等级保护 2.0 的高校网络安全保障建设研究.docx

全国计算机等级考试二级Python真题及解析.docx

1000份ppt模版，PPT模板优秀PPT

导入证书可以解决”无法建立到信任根颁发机构的证书链"问题。

matlab批量读取excel表格数据并处理画图

OpenCv车辆识别训练模型

代码随想录知识星球精华-大厂面试八股文第二版v1.2.pdf

Vue-Element UI集成ECharts实现数据统计分析页代码部分(如果帮助到你，感谢关注点赞)

数学建模对乙醇偶合制备C4烯烃的问题研究

STM32F103C8T6中文数据手册

（头歌）计算机组成原理存储系统设计（HUST）1-7关答案

最新资源