没有合适的资源?快使用搜索试试~ 我知道了~
以Spark为代表的内存计算框架的兴起、新型非易失性内存研究的逐步深入以及数据安全形势的日益严峻,使得现有的访存行为分析工具无法满足对大数据应用访存行为进行分析的需求。提出了一种软硬件结合的大数据访存踪迹收集分析工具集,在由硬件收集的基本访存踪迹的基础上,结合软件信息同步及离线标注的方式,可以高速、准确、无失真地获取具备丰富语义信息的访存行为信息,且为大数据访存的实时安全监控提供了一种实现方式。最后,通过实验对一组真实的大数据应用进行了访存踪迹采集和分析。
资源推荐
资源详情
资源评论
TOPIC 专题 41
一种软硬件结合的大数据
访存踪迹收集分析工具集
1. 中国科学院大学,北京 100049;2. 中国科学院计算技术研究所先进计算机系统研究中心,北京 100190
摘要
以Spark为代表的内存计算框架的兴起、新型非易失性内存研究的逐步深入以及数据安全形势的日益严
峻,使得现有的访存行为分析工具无法满足对大数据应用访存行为进行分析的需求。提出了一种软硬件
结合的大数据访存踪迹收集分析工具集,在由硬件收集的基本访存踪迹的基础上,结合软件信息同步及
离线标注的方式,可以高速、准确、无失真地获取具备丰富语义信息的访存行为信息,且为大数据访存
的实时安全监控提供了一种实现方式。最后,通过实验对一组真实的大数据应用进行了访存踪迹采集
和分析。
关键词
访存踪迹;访存行为;大数据
中图分类号:TP391 文献标识码:A
doi: 10.11959/j.issn.2096-0271.2019031
A hybrid memory trace collection and analysis
toolkit for big data applications
Abstract
The rise of in-memory computing framework represented by Spark, the gradual deepening of new non-volatile memory
research and the increasingly severe data security situation made the existing memory behavior analysis tools unable to
meet the demand for big data applications. A software-hardware hybrid memory trace collection and analysis toolkit for big
data applications was proposed. Based on the basic memory trace collected by hardware, the memory behavior information
with rich semantic information can be obtained quickly, accurately and undistorted by combining software information
synchronization and offline annotation. It also provides an implementation method for real-time security monitoring of large
data access. Finally, a group of real big data applications were analyzed by this toolkit.
Key words
memory trace, memory behavior, big data
LI Zuojun
1,2
, PAN Haiyang
1,2
, CHEN Mingyu
1,2
, BAO Yungang
1,2
1. University of Chinese Academy of Sciences, Beijing 100049, China
2. Center for Advanced Computer Systems, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China
2019031-1
BIG DATA RESEARCH 大数据
42
1 引言
在 现 代 计 算 机 系 统 中 ,对 于 大 数 据 、
云计算这类以“数据”为核心的应用负载
程 序 而 言 ,“ 数 据 ” 本 身 已 经 取 代 传 统 的
“计算”,成为影响系统性能的关键特征。
这就使得有效地设计数据的组织和访问模
式成为提升系统性能的关键,而数据的组
织和访问模式在整个计算机系统结构中
的关键点之一就是数据在中央处理器内部
(高 速 缓 存)以 及 外 部 存 储 器(内存)的 存
储和读写行为方式。因此,获取并分析大
数据应用本身的访存行为特征已成为实现
高效设计的前提。
以Spark
[1]
为代表的内存计算框架的
兴起,导致大量的计算中间结果被缓存于
内存中,现有的基于程序流的调试和分析
工具显然已经无法对这类数据流与程序流
分 离 、并 包 含 大 量 随 机 与 不 规 则 数 据 访 问
的 大 数 据 应 用 进 行 有 效 的 分 析 。此 外 ,非
易失性内存
[2]
在一些大数据系统研 究中的
逐 步 应 用 ,需 要 对 整 个 计 算 机 的 访 存 系 统
进 行 重 新 评 估 和 设 计 ,而 目 前 普 遍 缺 少 基
于大量应用访存行为模式并且能够对新型
内存系统进行分析、预测和总结的工具。
值得注意的是,大数据领域的信息安全对
各大互联网企业以及政府机构的影响日渐
突出,传统的基于等级保护和程序审查的
方 式 已 无 法 阻 止 数 据 通 过 病 毒 、木 马 或 漏
洞 攻 击 被 窃 取 或 修 改 了,最 终 的“ 数 据 ”安
全必须能够实时监控到系统中的关键数据
在 何 时 以 何 种 方 式 被 访 问 、修 改 以 及 被 何
人 修 改 等 。这 就 要 求 有 一 种 方 式 可 以 实 时
监 控 系 统 中 数 据 被 访 问 的 全 过 程 ,并 且 及
时做出安全防护动作。
目前,国内外可用的测量和分析方
法有两类:一类是纯软件的“植入式”工
具或模拟平台,另一类是纯硬件的物理
信号采集。软件方法(如DRAMSim2
[3]
、
Simics
[4]
、g e m 5
[5]
、CMP$IM
[6]
、
MARSSx86
[7]
等 软 件 模 拟 器)虽 然 可 以 获
取含有丰富语义信息的访存踪迹信息,但
是其模拟速度通常低于实际运行速度的
千 分 之 一 ,如 P i n
[8]
、Valgrind
[9]
、A T O M
[10]
和
PEBIL
[11]
等 使 用 代 码 插 入 的 方 法 ,虽 然 执
行速度较软件模拟的方式稍快,但还是会
无法避免地造成访存干扰和较大的性能开
销。硬件方法虽然大多能够非常快速地获取
访存信息,但是使用硬件计数器的方法(如
V Tu n e
[12]
、D T r a c e
[13]
、O P r o f i l e 等 )只 能 获
取有限公开的统计信息,并不能获取完整的
访 存 踪 迹 ,如 R A M P
[14]
、BEECube-BEE
[15]
、
Palladium XP、Dini Group、HAPS等硬件
仿真平台往往受限于其平台规模、设计开
发 工 作 量 ,不 能 完 整 地 仿 真 主 流 处 理 器 平
台和一些大规模商用软件;MemorIES
[16]
、
PHA$E
[17]
、A C E
[18]
、R A C F s
[19]
等硬件侦听工
具及具备内存监听和分析功能的示波器、逻
辑分析仪(如Lecroy、Nexus等产品)的价格
非常昂贵,存储容量也非常有限,且无法一次
性采集大数据应用TB级以上的访存踪迹。
这就使得大数据领域迫切需要一种高
效的监测手段,细致地“观察”数据是如
何在内存中被使用的。为此,笔者提出并
研制了一种新型的软硬件结合、集访存踪
迹收 集 和 分析 为一 体 的工具 集 —— 软硬 件
结合的访存踪迹工具集(hybrid memory
trace toolkit,HMTT),该工具集可以满
足人们对大数据应用访存行为进行监测和
分 析 的 需 求 ,其 特 点 见
表1。
2 软硬件结合的访存踪迹收集分析
工具集
笔者提出的HMTT是为了解决上述
2016016-422016025-422016016-422016061-422016016-422017001-422016016-422017007-22016016-422017009-12016016-422016025-422016016-422016061-422016016-422017001-422016016-422017007-22016016-422016025-422016016-422016061-422016016-422017001-422016016-422017007-22016016-422017035-12016016-422016025-422016016-422016061-422016016-422017001-422016016-422017007-22016016-422016025-422016016-422016061-422016016-422017001-422016016-422017007-22016016-422018013-22016016-422016025-422016016-422016061-422016016-422017001-422016016-422017007-22016016-422017009-12016016-422016025-422016016-422016061-422016016-422017001-422016016-422017007-22016016-422016025-422016016-422016061-422016016-422017001-422016016-422017007-22016016-422017035-12016016-422016025-422016016-422016061-422016016-422017001-422016016-422017007-22016016-422016025-422016016-422016061-422016016-422017001-422016016-422017007-22016016-422018038-22016016-422016025-422016016-422016061-422016016-422017001-422016016-422017007-22016016-422017009-12016016-422016025-422016016-422016061-422016016-422017001-422016016-422017007-22016016-422016025-422016016-422016061-422016016-422017001-422016016-422017007-22016016-422017035-12016016-422016025-422016016-422016061-422016016-422017001-422016016-422017007-22016016-422016025-422016016-422016061-422016016-422017001-422016016-422017007-22016016-422019031-2
剩余8页未读,继续阅读
资源评论
weixin_38592847
- 粉丝: 8
- 资源: 874
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Wkhtmltopdf python 包装器将 html 转换为 pdf.zip
- Windows 事件日志文件 (.evtx) 的纯 Python 解析器.zip
- jQuery实现一个加购物车飞入动画
- bootstrap企业网站前端模板下载
- 矩阵作业-包含Eigen安装相关内容
- CSS3几何透明层文本悬停变色特效代码.zip
- CSS3实现的九宫格图片鼠标悬停去除遮罩层特效源码.zip
- MQTT协议的原理、特点、工作流程及应用场景
- Ruby语言教程从介绍入门到精通详教程跟代码.zip
- PM2.5-Prediction-Based-on-Random-Forest-Algorithm-master.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功