# 基于标题的大规模商品实体检索
## 一、任务介绍
CCKS 2020:基于标题的大规模商品实体检索,任务为对于给定的一个商品标题,参赛系统需要匹配到该标题在给定商品库中的对应商品实体。
输入:输入文件包括若干行商品标题。
输出:输出文本每一行包括此标题对应的商品实体,即给定知识库中商品 ID,只返回最相关的 1 个结果。
团队成绩:评价方式采用准确率,最终成绩排名如下,DeepBlueAI 团队获得了本任务的冠军以及技术创新奖。
![](https://www.writebug.com/myres/static/uploads/2021/12/31/08cdc865d6ca970ef9c8e255a3339124.writebug){:height="50px" width="200px"}
比赛难点:基于标题的大规模商品实体检索存在如下几点挑战:
(1)输入文本中可能无法识别出实体指代词;
(2)商品标题中存在很多变异指代,没有给定的指代映射表;
(3)商品标题一般较短,上下文语境不丰富,须对上下文语境进行精准理解。
## 二、引言
基于标题的大规模商品实体检索与实体链接任务类似,都需要找到知识库中对应实体,因为部分标题文本不能识别出实体指代词,并且存在很多变异指代词,所以没有办法使用实体链接那种实体识别 -> 候选实体生成 -> 实体消歧的方案。
所以如标题描述一样,DeepBlueAI 团队将该任务定义为信息检索任务,针对检索任务采用了召回 -> 粗排序 -> 精排序的方案。具体而言,首先采用 Triplet BERT 召回模型,召回前 100 最相关实体,然后采用 BERT[1]二分类模型进行粗排序得到前 10 个最相关实体,最后经过精排序得到 1 个最相关实体。
## 三、数据处理
数据分为 8.3w 训练集文本和包含 text_id,text,implicit_entity 等字段,具体格式如下:
```markdown
{
"text_id": 81228, "text": "四盒粉,宝宝痱子粉",
"implicit_entity": [{"subject": "硼酸氧化锌散", "subject_id": 23813}]
}
``````
知识库数据 27.7w 商品实体,其中药品类 4.4k 个和书籍类 27.3w 个,知识库商品实体包含实体类型、实体 ID、实体 predicate 和 object 项,具体格式如下:
```markdown
{
"type": "Medical",
"subject_id": 23813,
"subject": "硼酸氧化锌散",
"data": [
{"predicate": "生产企业", "object": "中国医科大学附属盛京医院"},
{"predicate": "主要成分", "object": "本品为复方制剂。其组分为:每盒含氧化锌 12.5g、硼酸 12.5g"},
{"predicate": "症状", "object": "本品具有收敛、止痒、吸湿、杀菌作用。用于预防和治疗成人和婴幼 儿各种原因引起的痱子。"},
{"predicate": "规格", "object": "50g"},
{"predicate": "产地", "object": "中国"}]
}
``````
因为官方提供的数据是从实际业务场景得到,并没有进行清洗,所以原始数据存在太多的噪音,其中影响模型性能的情况如下:
图书类别太多
因为训练集中图书类别的标题占比很少,几乎可以忽略不计,但是在知识库中却占据了 98%,经过试验分析后去掉了训练集和知识库数据中图书类别的数据。
训练集中 text_id 不唯一
在多数情况下大家会默认 text_id 是唯一的,但是发现官方提供的 text_id 并不是唯一的,如果利用 text_id 唯一性去实现相关代码则会导致标注错误等情况。
相同标题文本对应多个实体 ID
训练集存在一些数据,标题文本相同但是对应的实体 ID 却不同,这类数据分为三种情况:
标题文本不包含任何实体信息
```markdown
{"text_id": 22473, "text": "药品", "implicit_entity": [{"subject": "丁苯羟酸乳膏", "subject_id": 268655}]}
{"text_id": 105526, "text": "药品", "implicit_entity": [{"subject": "肿节风软胶囊", "subject_id": 53176}]}
``````
标题文本对应的两个实体都具有关系
```markdown
{"text_id": 134542, "text": "正品米菲司同片铜片", "implicit_entity": [{"subject": "米菲司酮片", "subject_id": 140181}]}
{"text_id": 21246, "text": "正品米菲司同片铜片", "implicit_entity": [{"subject": "司米安米非司酮片", "subject_id": 134662}]}
``````
标题文本对应的两个实体一个为正确标注另一个为错误标注
```markdown
{"text_id": 132115, "text": "阿达帕林", "implicit_entity": [{"subject": "福牌阿胶阿胶片", "subject_id": 216530}]}
{"text_id": 45692, "text": "阿达帕林", "implicit_entity": [{"subject": "维 A 酸乳膏", "subject_id": 230257}]}
``````
上述相同标题文本对应多个实体 ID 的情况会在最后的排序阶段影响模型的收敛,导致最后的性能下降,所以直接删除了这部分数据。
相似实体
知识库中存在一些极其相似的实体,例如下面的两个实体只有生成企业不同,其他完全相同。针对这种相似的实体,团队会保留在训练集中出现的那一个,其他的全部删除。
```markdown
{"type": "Medical", "subject_id": 172360, "subject": "肾石通颗粒", "data": [{"predicate": "生产企业", "object": "河北万岁药业有限公司"}, {"predicate": "主要成分", "object": "金钱草、王不留行(炒)、萹蓄、延胡索(醋制)、鸡内金(烫)、丹参、木香、瞿麦、牛膝、海金沙。"}, {"predicate": "症状", "object": null}, {"predicate": "规格", "object": ["15g*10 袋(万岁)"]}, {"predicate": "功能", "object": null}]}
{"type": "Medical", "subject_id": 31946, "subject": "肾石通颗粒", "data": [{"predicate": "生产企业", "object": "修正药业集团股份有限公司"}, {"predicate": "主要成分", "object": "金钱草、王不留行(炒)、萹蓄、延胡索(醋制)、鸡内金(烫)、丹参、木香、瞿麦、牛膝、海金沙。"}, {"predicate": "症状", "object": null}, {"predicate": "规格", "object": ["15g*10 袋(修正)"]}, {"predicate": "功能", "object": null}]}
``````
实体描述文本构建
知识库中的数据为结构化数据,需要将结构化数据变成文本,所以按照 ['产地', '功能', '症状', '主要成分', '生产企业', '规格'] 的顺序对知识库中的结构化文本相连得到商品实体的描述文本。经实验分析,“产地”、“功能”对结果影响较大,放在了前面,而 “生产企业”、“规格” 影响较少,放在了后面。对于上述 “硼酸氧化锌散” 的例子构建的描述文本为:
硼酸氧化锌散的产地为中国,症状为本品具有收敛、止痒、吸湿、杀菌作用。用于预防和治疗成人和婴幼 儿各种原因引起的痱子。主要成分为本品为复方制剂。其组分为:每盒含氧化锌 12.5g、硼酸 12.5g,生产企业为中国医科大学附属盛京医院,规格为 50g
## 四、召回模型
针对每个标题文本需要从知识库找到对应的那一个商品实体,虽然经过上述的处理剩了 4000 左右的实体,但是如果直接采用 Interaction-Based(交互型,即标题和实体描述文本在模型中存在信息交互) 类型的网络,计算量将巨大。对于 8w 的训练集,则过一遍有 3.2 亿的计算量,因此交互型网络在召回阶段无法使用,可以在后续排序阶段使用。
因此传统的文本召回方式如 TF-IDF、BM25 等基于传统特征的召回方式不适用于当前数据集,而基于深度学习的召回网络如 DSSM[2]、CLSM[3]等仅仅使用了静态的词向量,而商品标题一般较短,上下文语境不丰富,必须对上下文语境进行精准理解,所以此类模型效果依旧不行。
最终团队决定采用基于预训练模型 BERT 的排序模型进行召回,模型依据 Sentence-Bert[4],采用 triplet network[5]形式,loss 为 Triplet loss,模型共用同一个 BERT 层。
Triplet loss
Triplet lo
甜辣uu
- 粉丝: 9615
- 资源: 1103
最新资源
- matlab平台的的PCB板缺陷检测.zip
- matlab平台的的SVM方法的水果识别分类.zip
- matlab平台的的答题纸答题卡识别.zip
- matlab平台的的病虫害检测系统.zip
- 基于python的多传感器数据融合故障诊断程序,三条分支
- sgp4与sdp4模型文档+一个SGP4的开源实现
- matlab平台的的车道线标定.zip
- matlab平台的的人脸+指纹融合系统.zip
- matlab平台的的路牌交通牌照识别.zip
- JAVA多线程示例代码
- matlab平台的的人脸门禁预警.zip
- matlab平台的的手写汉字识别.zip
- matlab平台的的人脸识别设计.zip
- matlab平台的的视频图像去雾.zip
- matlab平台的的手写字符识别.zip
- matlab平台的的小波变换dwt数字水印.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈