数据脱敏大数据架构设计全文共4页,当前为第1页。数据脱敏大数据架构设计全文共4页,当前为第1页。数据脱敏大数据架构设计 数据脱敏大数据架构设计全文共4页,当前为第1页。 数据脱敏大数据架构设计全文共4页,当前为第1页。 紫金新闻 发布于 2019-03-28 需求背景 系统有数据识别、数据脱敏逻辑,支持可配置规则,自定义等,需要进行异构数据同步,大数据量。现在针对以下几个需求进行讲解 1、支持冗余设计 2、支持任务自动分发,支持自动负载均衡 3、支持随时扩容节点而无需关停原有的系统和业务 架构和模块 架构图 数据脱敏大数据架构设计全文共4页,当前为第2页。数据脱敏大数据架构设计全文共4页,当前为第2页。 数据脱敏大数据架构设计全文共4页,当前为第2页。 数据脱敏大数据架构设计全文共4页,当前为第2页。 脱敏扩展性架构图 五核心模块及其主要功能 调度平台 使用Nginx方式来调用数据中心,通过注册中心获取数据中心的服务列表 可以合理的根据数据同步的情况,去调用服务;比如数据同步可能存在的顺序性,执行延时; 读取控制台DB的配置信息,定时执行数据同步任务 对数据同步的调用,可以按照简单的轮询方式,也可以根据数据同步服务器的性能情况,进行负载均衡 数据同步 负责执行数据库异构数据同步任务,可支持增量,全量模式,用DataX框架来实现 服务于调度平台的调用 会存储数据同步的执行结果,供控制台进行展示 会上报服务器的性能指标到数据同步DB,以供调度平台参考 控制台 配置管理界面,服务于用户进行数据同步任务的配置信息,并存储到控制台DB中; 数据识别 负责针对数据库的数据进行数据识别任务 数据脱敏大数据架构设计全文共4页,当前为第3页。数据脱敏大数据架构设计全文共4页,当前为第3页。数据脱敏 数据脱敏大数据架构设计全文共4页,当前为第3页。 数据脱敏大数据架构设计全文共4页,当前为第3页。 按照内置规则、自定义配置,负责脱敏数据 可提前进行数据脱敏,以供数据同步转换环节调用 三个辅助服务发现模块 注册中心 用于服务发现和注册 数据同步注册实例并定期报心跳 可以用zookeerper来实现 调度平台通过域名访问注册中心获取数据同步的地址列表 Nginx 和域名系统配合,协助调度平台访问注册中心获取数据同步地址列表 和域名系统配合,协助用户访问控制台进行配置管理 可用性分析 高可用通过Nginx、注册中心来实现,可以支持动态扩容。每个主要模块都是以无状态集群方式部署的,各自模块都可以通过注册中心来实现服务注册,模块之间的调用服务发现来获取,并以域名方式实现。 考虑到扩展,所以设想的方案是尽可能的做到每个服务职责单一。 这样的拆分,也是考量到每个环节的瓶颈都不一样,目前预估不是很精确,这样可以为后续扩展提供方便性。 数据脱敏、数据识别需要单独独立出来,原因:本身的服务不在数据同步中,可能提前预处理进行。 通过集群部署方式,支持冗余设计。 调度平台、Nginx集群通过数据同步性能情况,实现任务自动分发,支持自动负载均衡。 可用性分析 可用性表格分析 数据脱敏大数据架构设计全文共4页,当前为第4页。数据脱敏大数据架构设计全文共4页,当前为第4页。 数据脱敏大数据架构设计全文共4页,当前为第4页。 数据脱敏大数据架构设计全文共4页,当前为第4页。 结论 数据同步、控制台、调度平台、数据识别、数据脱敏是数据脱敏的几大核心微服务模块,相互协作完成配置中心业务功能,Nginx、注册中心是辅助微服务之间进行服务发现的模块。 采用微服务架构设计,架构和部署(部署方式可以 容器思路来操作)都有一些复杂,但是每个服务职责单一,易于扩展。 数据脱敏大数据架构设计
数据脱敏大数据架构设计是构建在现代信息技术基础上的一种高级数据管理策略,旨在保护敏感信息的安全,同时保持数据的可用性和分析价值。此架构设计着重于处理大数据量的异构数据同步,同时满足高可用性、扩展性和自动化的需求。
需求背景强调了几个关键点:支持冗余设计以确保系统的容错能力,任务自动分发和负载均衡以优化资源利用,以及无缝扩容以适应业务增长。这些需求表明系统设计必须灵活且能够自我调整。
架构设计的核心模块包括:
1. **调度平台**:调度平台使用Nginx作为反向代理服务器,通过注册中心获取服务列表,确保能根据数据同步任务的特性进行智能调度。它可以定时执行数据同步任务,基于数据同步服务器的性能进行负载均衡,既可以采用轮询策略,也能根据实时性能动态调整。
2. **数据同步**:这个模块负责执行数据库的异构数据同步,支持增量和全量模式,采用DataX作为数据同步框架。它记录执行结果并上报服务器性能指标,便于监控和优化。
3. **控制台**:作为配置管理界面,用户可以通过控制台配置数据同步任务,并将配置信息存储在控制台数据库中。
4. **数据识别**:该模块对数据库中的数据进行识别,以确定哪些数据需要脱敏。它支持内置规则和自定义配置,可以预先进行数据脱敏,以便在数据同步过程中使用。
5. **数据脱敏**:数据脱敏模块依据预设规则或用户定义的策略对敏感数据进行处理,确保数据隐私不被泄露。
辅助服务发现模块包括注册中心和Nginx。注册中心(如Zookeeper)用于服务的注册和发现,而Nginx与域名系统协同工作,协助调度平台和服务间的通信,同时也帮助用户访问控制台进行配置管理。
高可用性是通过Nginx和注册中心的结合实现的,允许动态扩容。所有主要模块均采用无状态集群部署,通过注册中心进行服务注册和服务发现,以域名形式进行通信。为了适应不同环节的性能瓶颈,设计上尽量保持服务的单一职责,方便未来扩展。数据脱敏和数据识别独立出来,是因为它们可能需要在数据同步之前预处理。
总结来说,这个数据脱敏大数据架构采用微服务设计,虽然部署相对复杂,但每个服务具有明确的职责,易于扩展和维护。Nginx、注册中心、数据同步、控制台、调度平台、数据识别和数据脱敏共同构成了一个强大的数据安全处理体系,能够高效、安全地处理大规模数据同步任务。