没有合适的资源?快使用搜索试试~ 我知道了~
基于语义相似性的跨模态图文内容筛选存储机制研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 26 浏览量
2022-06-10
08:18:26
上传
评论
收藏 2.29MB DOCX 举报
温馨提示
试读
45页
基于语义相似性的跨模态图文内容筛选存储机制研究.docx
资源推荐
资源详情
资源评论
摘 要 随着多媒体数据的爆发式增长,云端数据呈现出大规模多模态混
合并存的特性服务于数据分析的传统存储系统因为缺乏数据的语义管
理而面临读取延时超长的挑战针对图像和文本 种模态数据,在传统
存储系统之上提出一种跨模态图文数据内容筛选存储机制
,用于
提供大规模在线相似性内容筛选服务,从存储系统层面缓解数据分析
时必须从存储中读出所有数据的读带宽压力机制分为离线与在线 个
阶段离线阶段中,引入基于自监督的生成对抗式 方法,系统利
用这种方法生成语义元数据然后,将元数据注入独立的元数据空间最
后,根据相似性 码间汉明距离能够度量语义距离的特点,利用
图数据库构建 元数据图谱,并在语义图谱中建立
码与存储路径之间的映射在线阶段中,用户发送与分析相关的图像或
文本,存储系统首先转化数据为 码然后,在筛选半径内通过
元数据图谱寻找相似节点,进而找到相似文件的底层存储路径返
回筛选数据实验结果表明,与传统语义存储系统相比, 在召
回率超过 !"的性能下,读取延迟相对降低了 #$"~ $$"
关键词 语义管理; 码元数据;元数据图谱;存储机制;读带宽
多媒体数据的井喷式增长使得非结构化多模态数据在云端存储中
占据的比例剧增,进而催生了大量的分析需求,使得存储系统在满足
数据存储稳定性的同时,对数据分析的服务与支持越来越受到关注
然而,非结构化多模态数据的分析需求大多建立在内容感知与语
义关联之上,这使得传统存储系统在提供服务时捉襟见肘一方面,传
统存储系统只完成了对数据浅层内容的感知,即对数据属性的获取这
些属性不具备完整描述非结构化数据语义的能力另一方面,传统存储
系统没有为应用分析提供最佳的数据管理与查询结构现有的树形结构
导致语义上相近的数据在存储逻辑结构中可能相距甚远在这 个方面
的共同制约下,现有存储系统在面对应用分析时只能先从存储系统中
读出所有的数据,从而陷入漫长的读取等待中以 % 亿张图像,每张图
像大小为 %&' 的分析为例,部署在腾讯数据中心上的 (( 硬盘顺
序读取带宽为 #&')需要 *+ 天完成读取更为不幸的是,被读
取的数据中只有小部分真正参与了实际分析以腾讯 ,, 相册所在的数
据中心为例,我们分别针对含有“动物”“人”“植物”“风景”的数据进行收集
与 分 析 , 来 自 + 台 服 务 器 内 的 相 关 数 据 分 别 平 均 占 比 仅 为
#%%"*-*"%$#%" -"大量的数据经过简单分析并被发
现无关后即刻被弃用,但之前读取造成的带宽消耗已经无法弥补
为解决以上问题,我们设想是否可以在数据读取前进行简单的筛
选,通过只读取与分析相关的数据减少读取时间具体的,从语义层面
感知数据,获取表达语义的元数据,之后建立新的结构管理这些元数
据如果获取语义元数据与筛选的时间小于不相关数据的读取时间,那
么我们的工作将是有效且有意义的
基于此,我们以非结构化数据中占比最多的图像视频的基础内容
和文本为对象,研究改进现有的存储系统机制,以满足在图像或文本
为请求的分析需求下,从存储层面筛选内容语义相近的图文进行读取
从而实现支持分析需求的存储系统本文提出了基于语义相似性的跨模
态 图 文 数 据 内 容 筛 选 存 储 机 制
并从以下 方面入手:第一,针
对大规模异构多模态的图文数据,在存储环境下以相同范畴感知其语
义,以相似性 码实现图像和文本之间的统一空间表示,以元数
据形式进行管理第二,在现有的存储系统中以语义元数据为内容,图
谱化关联为结构设计内容筛选功能,支持用户在分析前根据文件的语
义相关性缩小读取范围,从而节省读取时间和带宽
值得一提的是,我们提出的筛选机制适用于应用分析场景,这种
场景关注相关数据的找到与相关数据表达出的共同规律因为语义筛选
机制的引入,存在部分相关数据遗漏的问题,但在较高的召回率下,
并不会影响其业务需求比如检索业务,最为关心的是前 N 个数据中的
相关数据,而不是所有数据
本文的主要贡献有 - 个方面:
%存储环境下的跨模态图像文本统一语义表征算法的嵌入与实现
在损失少量精度的前提下,采用二值化 方法,实现轻量级语义
元数据管理同时,克服图像和文本之间的模态差异,实现相似
性内容的统一空间融合.
语义 图谱构建的设计与实现从元数据层面提供相似内容
筛选接口,利用语义相近 码间汉明距离短的特性,在 实
现语义关联并在元数据图谱中提供深度遍历接口,支持相关节点查找.
-在线筛选相似内容文件接口的设计与实现基于语义 图谱
中间件,在可接受的召回率下,筛选与需求相关的图像和文本进行返
回在公开的跨模态数据集中,模拟按需筛选的效果实验表明,与传统
的语义存储系统相比, 在召回率超过 !"的性能下,读取延
迟相对降低了 #$"~ $$"
在后续的章节中,首先介绍本研究相关的研究现状、本研究用作
存储系统和元数据系统的物理组件以及本文使用的 算法基础模
型;然后提出 总体设计框架与工作流程;最后通过实验验证
本文方法的实用性和有效性
1 相关工作
1.1 语义存储系统
现存的大规模语义数据存储模型主要分为 种:关系型模型与图
模型%关系模型直接进行关系映射
/%0
,使用关系型数据库将语义和数
据进行关联12 等人
/0
提出了采用属性表的方式存储语义数
据1 等人
/-0
构建六元组索引,使得语义中的每一个数据都可以建
立索引,加快索引速度34 等人
/0
构建 ) 集群索引,集群中的每
一个节点都可以提供存储和检索服务图模型基于图的数据管理方式
可以更好地维护语义结构,并且通过图的匹配实现语义查询5 等
人
/*0
对特定类型的语义数据构建一种轻量型索引结构64 等人
/+0
将语义
的主体或者客体对应图的顶点,并将语义数据的查询语句转换为子图
完成匹配
这些语义存储系统在取得突破的同时却忽略了本质的问题,即管
理的内容以属性进行关联不可能真正做到对数据内容语义的管理,尤
其针对非结构化数据标签不完整的情形因此,在现有系统之上,注入
内容语义的元数据,既是本文的初衷,也是语义存储系统需要完成的
首要任务
1.2 跨模态检索
跨模态检索是跨越模态间差异实现特征相似性感知的一种多媒体
检索方式
/$0
二进制表示的相似性 码则具备存储上的优势,并且基
于异或的汉明距离度量方式具有极高的运算速度 等人
/!0
使用标准增
强学习方法学习双模态数据的 函数6 等人
/ 0
提出了基于语
义相关最大化的 跨模态模型语义主题多模态
/%#0
对文本进行
聚类,对图像矩阵进行分解,得到语义上的主题,对原始数据向语义
主题所在的公共子空间的映射进行 编码7 等人
/%%0
提出将训练数
据 的 语 义 相 似 度 作 为 监 督 信 息 转 化 为 概 率 分 布 , 通 过 最 小 化
87849279散度,在汉明空间中使用待学习的 码对
其进行近似处理,然后用带有采样策略的核逻辑回 归学习
码: 等人
/%0
设计了一种端到端的深度神经网络跨模态 学习框
剩余44页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3651
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功