CATBERT：用于检测社交工程电邮的上下文感知微型BERT.pdf资源-CSDN文库

版权申诉

163 浏览量 2021-09-05 07:39:58 上传评论收藏 1.05MB PDF 举报

【CATBERT：检测社交工程电邮的上下文感知微型BERT】社交工程电邮，特别是针对的网络钓鱼邮件，已经成为网络安全领域的一大威胁，每年导致企业大量损失。这些邮件往往经过精心设计，避开传统的恶意软件签名检测和基于机器学习的过滤器。它们不包含明显的恶意代码，也未使用已知的攻击词汇，因此难以被传统方法识别。为解决这一问题，研究者们提出了一种名为CATBERT的新模型，它是一种上下文感知的微型BERT（Context-Aware Tiny Bert）。CATBERT通过微调预训练的BERT模型，学习自然语言的复杂语法和语义表示。这种方法的核心在于，它不仅关注邮件内容，还考虑了邮件标题，从中学习邮件内容和上下文特征之间的联系，从而提供更全面的分析。 BERT（Bidirectional Encoder Representations from Transformers）是一种基于Transformer架构的深度学习模型，广泛应用于自然语言处理任务，并在多个领域取得优异成绩。然而，完整版BERT模型拥有数亿个参数，不适合实时安全应用。为此，研究者们采用了一种简化的微调策略，用简单的适配器替换BERT模型中一半的Transformer块，降低了模型复杂性，同时保持了高性能。实验结果显示，CATBERT在1%假阳性率下达到87%的检测率，优于DistilBERT（83%）、LSTM（79%）和逻辑回归（54%）等基线模型。此外，该模型对对抗性攻击表现出良好的鲁棒性，即使攻击者使用错别字或同义词来规避检测，CATBERT仍能有效识别。论文的贡献主要包括： 1. 提出了一种基于BERT的钓鱼邮件检测模型，整合邮件正文内容和邮件标题的上下文信息，学习复杂的表示形式。 2. 该模型在相同训练数据上表现优于未经微调的BERT模型。 3. 通过微调策略，创建了一个更小、更快的模型，降低了对资源的需求。 4. 模型对对抗性攻击具有高抵抗力，增强了安全性。相关研究主要集中在机器学习模型和BERT模型的压缩方法。传统机器学习方法如TF-IDF特征提取、逻辑回归、支持向量机等已不再足够应对复杂的社交工程攻击。近期，循环神经网络（RNN）和卷积神经网络（CNN）等深度学习模型被用于序列语言数据的分析。尽管这些方法在某些场景下有效，但面对高度个性化的社交工程邮件，仍存在局限性。 CATBERT的出现，标志着在检测社交工程电邮方面，深度学习尤其是上下文感知模型的进步，为网络安全领域提供了新的解决方案。未来的研究可能会进一步优化模型，提高对新式攻击的识别能力，同时保持模型的效率和实用性。

资源推荐

资源评论