引言
当前由于新冠肺炎的影响,多地学校开启线上教学模式。教学资源琳琅满
目,如何组织好教学资源并且快速有效地从海量教学资源中搜索到满意的内容
是一个亟待解决的问题。
南开教学资源网项目是一个以构建精品教学资源为目标,收集视频、课件、
习题、教材四种教学资源的在线学习网站。多种类型的教学资源在丰富了教学
内容的同时也带来了挑战,这些非结构化的数据虽然丰富但种类繁多且类型复
杂,在搜索场景下难以高效利用。为解决此问题,本文构建了一个教学资源知识
图谱
[1⇓ -3]
,用知识图谱技术将这些类型复杂的教学资源关联在一起。
Elasticsearch 是一个开源、分布式的全文搜索引擎
[4]
,它是在倒排索引的基
础上应用了 BM25 算法
[5]
来进行搜索,可以在完成索引库的构建之后实现极为高
效的搜索功能。其中 BM25 算法是一种根据词频特征匹配来计算文本相似度的
算法,该算法的原理是将文本分解为词语的集合,将词语作为向量来计算文本相
似度,这种基于统计的相似度算法只是基于两条文本中出现的字词的匹配度来
计 算 文 本 相 似 度 , 并 不 会 考 虑 到 文 本 中 存 在 的 语 义 , 这 也 就 导 致 了 使 用
Elasticsearch 进行搜索有一定的局限性。
基于深度神经网络的相似度算法
[6]
在一定程度上解决了基于统计算法的语
义缺失问题。目前此类算法中效果较好的有以下几类:基于表示型匹配模型
DSSM、MV-DSSM
[7]
等,这类模型通过神经网络将输入的两条文本内容表示为
特征向量,再计算两个特征向量的余弦距离得到文本的相似度,其优点是匹配速
度快,但由于从两个文本对象中单独提取特征,导致很难捕获文本的结构信息;基
于交互型的匹配模型 DRMM
[8]
、MatchPyramid
[9]
等,能更好地得到文本间交互信
息,捕捉到语义焦点,但其缺点是会忽略掉句法和句子之间对照的全局型信息;预
训练模型 BERT
[10-11]
,采用了新的 masked language mode 来生成深度的双向语
言表征,使用它获得的结果远超过了之前的其他模型,但也存在预测速度慢等弊
端。
本文在上述算法中效果较好的 BERT 基础上,通过南开教学资源网项目中
的知识图谱和用户搜索记录构建了自有数据集,并利用公开数据集和自有数据
集训练并蒸馏出了 ER-BERT(Education Resource BERT),提高了其预测速
评论0
最新资源