随着信息技术的飞速发展,企业存储着大量用户个人信息、隐私信息以及商业敏感数据,一旦发生泄露,不仅会造成巨大的经济损失,还可能面临法律责任和巨额罚款。因此,企业信息安全工作的一个核心问题是如何保障这些敏感数据的安全。传统的敏感信息检测依赖于关键字匹配或正则表达式,这种方法严重依赖于安全运营人员的经验,误报率和漏报率较高。此外,资源和精力的限制使得优先处理中高风险事件成为一个重要问题。
为了克服这些问题,宙斯盾流量安全分析团队晨晨、彦修提出了一种基于机器学习的敏感信息泄露治理方案,该方案能够实现对敏感信息的检测、分类和分级运营。机器学习技术的应用,可以有效弥补传统方案的不足,提高检测的准确性,并降低依赖于人力资源的需求。
机器学习方案的核心是使用TF-IDF算法挖掘潜在的敏感关键字,并利用这些关键字来扩充规则库,减少因关键字不全而造成的漏报问题。通过建立不同类别的敏感信息模型,每个模型输出一个概率值,指示待检测信息属于各类的可能性,从而进行准确的分类。威胁分级模块则通过word2vec模型获取词向量,并利用k-means聚类算法进行过滤,筛选出疑似高风险的部分,再通过威胁评分模型进行进一步分级。
敏感数据治理系统的架构分为流量识别、数据处理、模型层处理和运营四个阶段。流量识别阶段对流量进行分析,去除无用页面,并构建模型监控数据外泄;数据处理阶段对响应内容进行去脏、分词、过滤等预处理步骤;模型层处理是系统的核心,基于机器学习算法进行敏感信息的识别、分类和分级;运营阶段基于模型层的分级结果,优先推动中高风险场景的整改,并跟踪模型表现,不断调优模型。
敏感信息检测系统的设计采用机器学习为主导、人工干预为辅助的处理机制。系统架构如图所示,通过逐步优化算法和数据模型,减少人工干预的比例。系统的关键在于能够通过机器学习算法快速、准确地检测到敏感信息,并能够将这些信息进行分类和分级,从而为风险管理和决策提供数据支持。
敏感信息的分类涉及将敏感信息分为不同的类别,如身份模型、金融模型、位置模型等,每个模型都会为待检测信息输出一个概率值,最后选择概率值最高的类别作为敏感信息的类型。这种方法相对于传统依赖关键字的方式更为准确,因为它能够结合上下文语义进行综合判断。
威胁分级方面,通过word2vec模型获取词向量,并将这些词向量输入到k-means聚类模型中进行过滤,自动学习信息间的相似度并输出待分级内容所处的簇。在威胁分级模型中,系统默认规模最小的簇最可能具有最高威胁等级,通过这种方式过滤掉大部分误报或低风险内容,筛选出疑似高危信息进行进一步的分析和处理。
通过该机器学习方案,企业能够有效地治理敏感信息泄露问题,不仅提高数据安全性,还能够在企业安全管理中占据主动地位,有效应对潜在的数据安全威胁。安全对抗、web安全、漏洞分析、数据安全与治理、网络安全等方面的挑战,均可通过此方法得到相应的解决方案。