基于机器学习的敏感信息泄露治理探索.pdf资源-CSDN文库

版权申诉

147 浏览量 2021-09-18 10:58:44 上传评论收藏 1.91MB PDF 举报

随着信息技术的飞速发展，企业存储着大量用户个人信息、隐私信息以及商业敏感数据，一旦发生泄露，不仅会造成巨大的经济损失，还可能面临法律责任和巨额罚款。因此，企业信息安全工作的一个核心问题是如何保障这些敏感数据的安全。传统的敏感信息检测依赖于关键字匹配或正则表达式，这种方法严重依赖于安全运营人员的经验，误报率和漏报率较高。此外，资源和精力的限制使得优先处理中高风险事件成为一个重要问题。为了克服这些问题，宙斯盾流量安全分析团队晨晨、彦修提出了一种基于机器学习的敏感信息泄露治理方案，该方案能够实现对敏感信息的检测、分类和分级运营。机器学习技术的应用，可以有效弥补传统方案的不足，提高检测的准确性，并降低依赖于人力资源的需求。机器学习方案的核心是使用TF-IDF算法挖掘潜在的敏感关键字，并利用这些关键字来扩充规则库，减少因关键字不全而造成的漏报问题。通过建立不同类别的敏感信息模型，每个模型输出一个概率值，指示待检测信息属于各类的可能性，从而进行准确的分类。威胁分级模块则通过word2vec模型获取词向量，并利用k-means聚类算法进行过滤，筛选出疑似高风险的部分，再通过威胁评分模型进行进一步分级。敏感数据治理系统的架构分为流量识别、数据处理、模型层处理和运营四个阶段。流量识别阶段对流量进行分析，去除无用页面，并构建模型监控数据外泄；数据处理阶段对响应内容进行去脏、分词、过滤等预处理步骤；模型层处理是系统的核心，基于机器学习算法进行敏感信息的识别、分类和分级；运营阶段基于模型层的分级结果，优先推动中高风险场景的整改，并跟踪模型表现，不断调优模型。敏感信息检测系统的设计采用机器学习为主导、人工干预为辅助的处理机制。系统架构如图所示，通过逐步优化算法和数据模型，减少人工干预的比例。系统的关键在于能够通过机器学习算法快速、准确地检测到敏感信息，并能够将这些信息进行分类和分级，从而为风险管理和决策提供数据支持。敏感信息的分类涉及将敏感信息分为不同的类别，如身份模型、金融模型、位置模型等，每个模型都会为待检测信息输出一个概率值，最后选择概率值最高的类别作为敏感信息的类型。这种方法相对于传统依赖关键字的方式更为准确，因为它能够结合上下文语义进行综合判断。威胁分级方面，通过word2vec模型获取词向量，并将这些词向量输入到k-means聚类模型中进行过滤，自动学习信息间的相似度并输出待分级内容所处的簇。在威胁分级模型中，系统默认规模最小的簇最可能具有最高威胁等级，通过这种方式过滤掉大部分误报或低风险内容，筛选出疑似高危信息进行进一步的分析和处理。通过该机器学习方案，企业能够有效地治理敏感信息泄露问题，不仅提高数据安全性，还能够在企业安全管理中占据主动地位，有效应对潜在的数据安全威胁。安全对抗、web安全、漏洞分析、数据安全与治理、网络安全等方面的挑战，均可通过此方法得到相应的解决方案。

资源推荐

资源评论