基于在线评论词向量表
征的产品属性提取
文献回顾
选题原因
结果分析、评价
特征提取
人工标注 属性精确,但效率低下
名词和名词短语抽取
候选特征词引入关联规则
借助引擎计算互信息值评估候选特征
搭配关系抽取
机器学习方法抽取
话题模型抽取
特征归类
WordNet词语相似性矩阵
mLSA无监督
半监督SC-EM
SC-EM+权重标准化SimRank计算不同特征之间
相似度
电商评论主观性强
独特性高:不同评论者对同一个特征的表达方式
或词语内容不一样
在线评论中的情景语义相似的特征词与原始词义
不一样
构建基于词向量表征的产品属性抽取方
法,提高抽取结果的准确性,归类结果的
可理解性
模型方法
产品属性抽取方法
文本预处理
表征词向量训练模型
特征词过滤
特征词聚类
网页爬取文本数据集T,数据清理得到语料
库D,使用语言模型对语料库中的数据进行
训练得到词汇的表征向量集V(D)
K-means方法
频繁集挖掘
Word2Vec
描述数据
特征词模式及过滤
表征词向量训练
分析文本长度
词频统计
过滤代表性名词作为候选特征词
设定阈值
Word2Vector(在不需要人工干预的情况下创建
特征)
特征词聚类
选择合适的聚类数目
寻找合适的阈值
结果评价
困惑度
宏平均准确率
与LDA、S-LDA、HLDA比较
评论0