随着面向服务体系结构(service-oriented archi-tecture,SOA)技术的发
展 ,Web 服 务 被 广 泛 应 用 于 各 个 领 域 。 截 至 2020 年 6 月 24
日,ProgrammableWeb 网站上所包含的 Web 服务已经达到了 31 154 个,要从
这样一个大规模的服务集合中快速有效地找到满足开发者需求的 Web 服务犹
如大海捞针。已有研究表明:对 Web 服务进行分类或聚类,再将用户的搜索请
求定位到指定的服务类簇中,能够有效地减小 Web 服务搜索空间,提升 Web 服
务的搜索效率
[1]
。
目前,针对 Web 服务划分已有大量的研究。这些研究通常是将 Web 服务
映射为一个固定长度的表征向量,该表征向量包含 Web 服务的主要信息,之后
在其上使用聚类或 分 类 算 法 实 现 对 Web 服 务 的 划 分 。如 Liu 等 人 使 用 LDA
(latent Dirichlet allocation)主题模型和支持向量机相结合,实现了对 Web 服
务的自动标注
[2]
。Chen 等人利用 LSA(latent semantic analysis)模型对移动
服务文本进行全 局 主 题 建 模 ,再 通 过 BiLSTM(bi-directional long short-term
memory)模型对服务进行分类
[3]
。这类方法的效果高度依赖主题模型所生成的
Web 服务表征向量的质量。但是由于 Web 服务描述文档篇幅较短,LDA 主题
模型无法有效地从短文本中获得丰富的主题信息,进而导致服务聚类效果较差。
与此同时,有些研究考虑将 Web 服务的附加信息,如标签
[4]
、先验知识加入
到 Web 服务表征向量的生成过程中,以提高 Web 服务聚类的精度。例如,Shi
等人使用概率主题模型获得 Web 服务描述文档中隐含的主题表征向量,之后使
用 K-means++对其进行聚类,在这过程中加入了额外的先验知识用于提升聚类
的准确性
[5]
。Xiao 等人考虑到 Web 服务描述文本长度较短,所包含信息量较少
的情况,通过使用维基百科相似词扩充的方法,对原始的 Web 服务进行扩充,使
用 HDP(hierarchical Dirichlet processes)主题模型获得 Web 服务表征向量,
进而实现 Web 服务聚类
[6]
。Cao 等人将 Web 服务语义信息以及 Mashup 服务
与 API(application programming interface)服务之间的调用关系相结合,实现
了 API 服务的划分
[7]
。这些方法在一定程度上提高了 Web 服务聚类和分类的
精度,但是仍然存在以下一些问题:
(1)尽管有些工作采用增强文本内容、引入先验知识等方法,用来丰富
Web 服务所包含的信息,同时通过改进主题模型以提高模型的主题建模能力,但
由于主题模型与 Web 服务描述文档固有的矛盾,主题模型难以从篇幅较短的
Web 服务文档中获得有效的主题表征,实验效果提升有限。
评论0
最新资源