没有合适的资源?快使用搜索试试~ 我知道了~
基于多层语义相似的技术供需文本匹配模型研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 144 浏览量
2022-06-26
15:08:34
上传
评论
收藏 137KB DOCX 举报
温馨提示
试读
12页
基于多层语义相似的技术供需文本匹配模型研究.docx
资源推荐
资源详情
资源评论
1 引言
技术市场中存在的技术供求双方信息不对称现象严重影响技术交易
[1
]
。在线
技术转移服务平台通过发布技术供需信息,减少了这种信息不对称的影响
[2
]
,匹配
技术供需信息是技术转移服务平台促使完成技术交易的重要环节
[3
]
,优化在线技术
供需匹配有助于提高技术转移效率,并促进企业提升创新和技术商业化能力
[4
]
。随
着技术交易需求增多,网上技术市场快速发展,截至 2018 年底,我国国家技术转移
机构有 453 家,促成技术转移项目超过 12 万项,成交额超过 2 000 亿元,比上一年
增长近 20%
[5
]
。
供需信息大量发布的同时,也显现出技术签约率不高的问题
[6
]
。寻找有效的供
需匹配方案是技术市场进一步发展的关键,目前研究技术供需匹配方案主要有基
于主体的双边匹配和基于技术供需信息的匹配。双边匹配方案从 1985 年被提出
开始,就一直应用于解决供需匹配问题,包括婚姻
[7
]
、电子交易
[8
]
、二手房交易
[9
]
、
信息技术(Information Technology,IT )服务
[10
]
等领域。双边匹配研究较早,并
且应用已经较成熟,但双边交易基于整体满意度最高,并不适用于所有技术供需匹
配场景。此外,双边匹配技术多是基于交易后双方的评价信息,这些信息还会受到
双方合作过程中的其他因素影响,如配合积极性、技术售后等。
基于技术供需信息的匹配主要是通过匹配技术主体发布在平台上的信息进
行匹配,由于目前我国在线技术交易服务平台还没有形成统一的标准,并不是所有
的供需信息都包括图片、视频等信息,所以目前技术供需信息匹配以文本匹配为
主,即通过计算文本相似性进行匹配。而技术供需文本匹配任务,除了面临传统文
本处理中信息稀疏、表达不规范、异构和非结构化等挑战外 ,还存在口语化与技
术词汇表达不一致、部分重要匹配信息缺失和语料库资源不足等难题。它也明
显区别于传统短文本分析的要求,如情感分析中不能只考虑正负向情感词而不考
虑上下文中的否定词;但在技术文本匹配中,由于技术文本本身包含的关键词的重
要性以及匹配过程并不是做一个是否的判断,更多是做一个相关判断,在技术供需
文本中关键词更加重要。
综合相关研究,发现目前在技术转移和技术交易研究主要有两个特征:
(1)研究供需交易双方特征、交易满意度,如双边匹配相关研究;
(2)研究交易平台的整体特征,如对几个交易平台进行对比分析技术转移效
率影响因素。
总体来看,相关领域多以宏观特征研究呈现,缺乏具体研究,尤其是采用机器学
习或深度学习对技术文本训练的研究不多。为了能更充分利用好大数据时代的
数据和硬件资源优势,将深度学习的模型和方法与传统文本匹配方法相结合提高
技术交易领域的供需匹配准确率有重要研究意义。本文采用不同方法对供需文
本中不同层次的信息进行匹配,构建基于多层语义方法融合的技术供需文本匹配
模型,与基线方法进行比较来评估模型的有效性,并综合分析各特征对技术供需文
本匹配结果的影响。
2 研究现状
2.1 技术供需匹配
供需匹配研究虽然发展较早,但技术转移的需求是近年来增加的,技术供需匹
配研究并不多,更多是从传统供需匹配方法迁移过来。
技术供需匹配方案可以从供需主体和技术需要两个方向开展研究并进行实
施。从供需主体方面来看,以供需双方技术交易满意度评价为依据,分别考虑双方
的偏好,取得稳定的匹配结果
[11
]
,最典型的是双边匹配。双边匹配本身又可以分为
以最大匹配数为目标的基数匹配、以权值总和最大优化目标的权值匹配和以每
个主体满意度最大为目标的稳定匹配三种
[7
]
。陈希等较早利用两阶段决策分析方
法对知识服务中的双边匹配进行研究,先在技术供需双方之间建立满意度矩阵,并
以双方满意度最大化为目标优化匹配模型
[12
]
。李华等基于技术交易供需双方的满
意度信息构建多指标双边匹配决策模型,通过最低满意度对供需主体组合进行筛
选,使交易双方满意度最大化
[6
]
。可以看出,基数匹配和权值匹配都是以所有供需
主体的最大利益出发,第三种则更加注重单个主体满意度,但仍然以整体满意度为
目标。
从技术需要方面来看,双边匹配虽然能提高整体满意度,但对于供需主体,他们
不关心整体满意度,技术供需本身匹配度不够,技术供给就满足不了技术需求,无法
完成技术交易。所以,技术供需匹配还需要从技术需要方向解决。基于供需双方
提供的信息进行技术上的匹配,能有效解决技术匹配的核心问题,即技术成果要能
满足技术需求中的要求,或者要解决类似的任务,这样能通过一定的研究和改进满
足技术需求。目前,技术信息的供需匹配以文本相似度匹配为主,文本相似性的匹
配工作可以分为文本的表示和文本的相似度计算两个步骤。技术供需文本表示
方法是在文本表示的基础上,结合技术文本本身的特征开展研究,而根据不同的文
本表示,语义相似度计算与匹配方法也不同。这种针对技术文本进行表示和相似
度计算的方法能够提高供需技术本身的吻合度,是技术供需匹配的研究重点。
2.2 文本匹配
目前关于技术文本的匹配研究相对较少,大多数研究都需要借助传统文本匹
配研。文本匹配可以分为基于词频和共现的文本匹配、基于词语义的文本匹配
和基于深度学习模型的文本匹配。
(1) 基于词频和共现的文本匹配
基于词频和共现的文本匹配是一种直观的文本分析方法 ,使用关键词共现构
建词图网络,可以用来识别重要节点
[13
]
。Kuncoro 等利用词频进行关键词排序
[14
]
;Zheng 等用 TF-IDF (Term Frequency-Inverse Document Frequency )对
短文本进行热点主题聚类与识别
[15
]
。学者们经常结合 TF-IDF 与其他方法提高单
一方法的效果。例如,贺飞艳等结合 TF-IDF 和方差统计对短文本进行多分类特
征抽取
[16
]
;He 等结合词频统计方法和关键词位置,提升了对文本热点识别的效果
[17
]
。在技术文本供需匹配的研究中,杨德林等利用 TF-IDF 结合余弦相似度进行文
本相似度计算,对在线技术转移服务平台供需匹配效率进行分析,找出了供需文本
信息的语言差异问题
[18
]
。基于关键词词频或共现等方法,整体在分类上有一定的
准确性,但是在不考虑语法和句法结构的基础上进行的相似度计算,忽略了文本语
义和关键词之间的关系
[19
]
,因此在实际工作中,关键词方法多与其他方法相结合以
得到更好的匹配效果。
(2) 基于词语义的文本匹配
基于词语义的文本匹配方法考虑并注重词本身的含义 ,从词的语义特征方向
进行文本匹配。例如,王立霞等将语义特征融入关键词提取过程中,解决了关键词
词频和共现方法只考虑字面匹配而忽略语义的问题
[20
]
。但基于词语义的文本匹配
方法通常需要借助语义词典生成词向量,如刘端阳等提出基于《同义词词林》
[21
]
语义词典的关键词语义相似度的提取算法解决关键词提取过程中一词多义的问
题
[22
]
;方俊等基于英文词典 WordNet 计算关键词之间的内聚性
[23
]
;Li 等基于知网
HowNet 计算中文语义相似度
[24
]
;Wei 等结合 WordNet 和词汇链对文本进行语义
聚类
[25
]
。这些已有词典的偏好会影响词语义结果,因此很多学者开始使用领域词
典。例如,Wu 等以维基百科为基础语料库进行语义匹配实现对文本信息的分类
[26
]
;Jiang 等运用维基百科中分类结构的概念,提出解决语料库局限问题的信息相
似度计算方法
[27
]
。此外,谷歌开发的语言建模工具 Word2Vec
[28
]
、Facebook 开发
的 FastText
[29
]
等用于深度学习的方法,能进一步提高技术供需文本匹配的准确率。
(3) 基于深度学习模型的文本匹配
深度学习模型是目前实用效果较好的文本处理方案,相比传统方法只基于单
一文档特征(如词频),能生成一个更高维度的向量,从句子甚至是文本整体考虑
文本信息,弥补细粒度(如基于词和短语)的不足,它强大的特征表示学习,在复杂
文本匹配、图像识别、情感分析等领域都得到广泛的研究与应用
[30
]
。全连接神经
网络是深度学习的基础模型,典型的代表模型为应用于查询和解答的深度结构语
义模型
[31
]
,Huang 等通过真实网站数据进行实验,证明了深度结构语义模型优于其
他潜在语义模型
[31
]
。但由于全连接层需要计算参数较多,以及设计上缺少对文本
中词序的考虑,所以应用范围受限。而卷积神经网络中用一个或多个卷积核(滑
动窗口)对同一层文本进行滑动计算,减少了参数的同时考虑了语序。Kim 在句
子分类中提出用卷积神经网络用于句子语义的表达
[32
]
,随后产生了大量基于卷积
神经网络的算法,如 Hu 等提出的 ARC-I 模型
[33
]
、Qiu 等提出的卷积神经张量网络
结构(Convolutional Neural Tensor Network Architecture,CNTNA )
[34
]
等。而
在长文本表示中,通常用到循环神经网络( Recurrent Neural Network,RNN),
它的代表是基于长短期记忆网络(Long Short-Term Memory,LSTM ),在基础
循环神经网络中加入输入门、遗忘门和输出门三个门,保证当前节点信息和节点
之前信息的控制。但它更偏向于记下与当前节点较近的信息
[35
]
,于是深度双向的
循 环 神 经 网 络 ( Deep Bidirectional RNNs ) 和 注 意 力 机 制 ( Attention
Mechanism)被提出
[36
]
。Bahdanau 等将注意力机制应用到文本处理中
[35
]
,在技
术供需文本匹配中,注意力模型能很好地兼顾个别技术关键词的重要作用和整个
文本的语义表示,由于不同权重的加入,促进了研究向多维度和多粒度匹配方向发
展。
2.3 特征融合模型
文本特征融合模型能充分利用文本的各种特征弥补单一方法的不足以提高
准确率,文本特征融合以数据融合模型为基础。在深度学习方法普及之前,数据融
合通过把数据转换为单一的基于特征的数据集进行处理
[37
,38
]
,或者多在数据融合模
型中靠后阶段采用决策融合或结果融合,如在多数据融合确定权重时,有学者采用
熵值法,从文本语义特征、词频特征和相关性特征中分别得出的相似度进行多层
特征融合进行供需文本匹配
[2
]
。随着深度神经网络的普遍应用,学者们从不同角度
剩余11页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3549
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功