基于标签相似度的不良信息多标签分类方法(2016年)资源-CSDN文库

工程技术

论文

需积分: 3 201 浏览量 2021-04-29 00:38:50 上传评论 1 收藏 1012KB PDF 举报

资源推荐

资源详情

资源评论

　　收稿日期：２０１４１２１７；修回日期：２０１５０２０３　　基金项目：国家自然科学基金资助项目（８１３６０２３０）；国家科技部科技型中小企业技术创

新基金资助项目（１３Ｃ２６２１５３０５４０４）

　　作者简介：刘卓然（１９８９），男，硕士研究生，主要研究方向为机器学习、自然语言处理；胡杨（１９９１），男，江苏南通人，硕士研究生，主要研究

方向为机器学习、信息检索；刘骊（１９７９），女，讲师，博士，主要研究方向为机器学习、嵌入式技术、计算机图形处理；冯旭鹏（１９８６），男，硕士，主要

研究方向为信息检索；刘利军（１９７８），男，讲师，硕士，主要研究方向为医疗信息服务；黄青松（１９６２），男（通信作者），教授，主要研究方向为智能

信息系统（ｙｎｋｍｈｑｓ＠ｓｉｎａ．ｃｏｍ）．

基于标签相似度的不良信息多标签分类方法



刘卓然

１ａ

，胡　杨

１ａ

，刘　骊

１ａ

，冯旭鹏

１ｂ

，刘利军

１ａ

，黄青松

１ａ，２

（１．昆明理工大学ａ．信息工程与自动化学院；ｂ．教育技术与网络中心，昆明６５０５００；２．云南省计算机技术应用

重点实验室，昆明６５０５００）

摘　要：在多标记分类中，标签与标签之间的相关关系是影响分类效果的一个重要因子。传统的经典多标签分

类方法如ＢＲ算法、ＭＬＫＮＮ算法等，忽略了标签之间的相关关系对实际分类的影响，分类效果一直不能令人满

意；面对类别关联度极高的不良信息的多标签分类，分类效果更是大打折扣。针对上述问题，通过改进经典的多

标签分类算法ＲＡｋＥＬ，首先根据训练文本计算出各标签之间的相似度系数，然后再根据自定义不良信息层次关

系计算出综合标签相似度系数矩阵，最后在

ＲＡｋＥＬ算法投票过程中根据综合标签相似度与中心标签重新确定

最终的结果标签集合。与传统的分类方法在真实的语料库上进行多标签分类效果对比，结果证明，该方法对不

良信息分类具有较好的效果。

关键词：多标签分类；标签之间的相关关系；不良信息；中心标签；标签相似度系数矩阵

中图分类号：ＴＰ３９１．４３　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１６）０４０９８９０４

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１６．０４．００６

Ｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｏｆ

ｂａｄｉｎｆｏｒｍａｔｉｏｎｂａｓｅｄｏｎｌａｂｅｌｓｉｍｉｌａｒｉｔｙ

ＬｉｕＺｈｕｏｒａｎ

１ａ

，ＨｕＹａｎｇ

１ａ

，ＬｉｕＬｉ

１ａ

，ＦｅｎｇＸｕｐｅｎｇ

１ｂ

，ＬｉｕＬｉｊｕｎ

１ａ

，ＨｕａｎｇＱｉｎｇｓｏｎｇ

１ａ，２

（１．ａ．ＦａｃｕｌｔｙｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ＆Ａｕｔｏｍａｔｉｏｎ，ｂ．ＥｄｕｃａｔｉｏｎａｌＴｅｃｈｎｏｌｏｇｙ＆ＮｅｔｗｏｒｋＣｅｎｔｅｒ，ＫｕｎｍｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅ＆Ｔｅｃｈ

ｎｏｌｏｇｙ，Ｋｕｎｍｉｎｇ６５０５００，Ｃｈｉｎａ；２．ＹｕｎｎａｎＫｅｙＬａｂｏｒａｔｏｒｙｏｆＣｏｍｐｕｔｅｒＴｅｃｈｎｏｌｏｇｙＡｐｐｌｉｃａｔｉｏｎｓ，Ｋｕｎｍｉｎｇ６５０５００，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｉｎｔｈｅｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｔｈｅｌａｂｅｌｓｐｌａｙｓａｎｉｍｐｏｒｔａｎｔｒｏｌｅｉｎａｆｆｅｃｔｉｎｇｔｈｅｐｅｒｆｏｒｍ

ａｎｃｅｏｆｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｔｈｅｔｒａｄｉｔｉｏｎａｌｍｅｔｈｏｄｓｏｆｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｈａｎｄｌｅｄｅａｃｈｌａｂｅｌｉｎｄｅｐｅｎｄｅｎｔｌｙ，ｉｇｎｏｒｅｄｔｈｅｉｎｆｌｕ

ｅｎｃｅｏｆｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｌａｂｅｌｓ，ｓｏｔｈａｔｔｈｅｅｆｆｅｃｔｏｆｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｗａｓｏｆｔｅｎｎｏｔｓａｔｉｓｆａｃｔｏｒｙ，ｅｓｐｅｃｉａｌｌｙｉｎｔｈｅｓｉｔｕａ

ｔｉｏｎｏｆｄｅａｌｉｎｇｗｉｔｈｔｈｅｂａｄｉｎｆｏｒｍａｔｉｏｎ．Ａｉｍｉｎｇａｔｔｈｅｓｅｐｒｏｂｌｅｍｓａｂｏｖｅ，ｔｈｉｓｐａｐｅｒｐｒｅｓｅｎｔｅｄａｍｏｄｉｆｉｅｄａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎ

ｔｈｅＲＡ

ｋＥＬ，ａｃｌａｓｓｉｃａｌｇｏｒｉｔｈｍｓｆｏｒｔｈｅｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ．Ｔｈｅａｌｇｏｒｉｔｈｍｆｉｒｓｔｌｙｗｏｒｋｅｄｏｕｔｔｈｅｓｉｍｉｌａｒｉｔｙｃｏｅｆｆｉｃｉｅｎｔｂｅ

ｔｗｅｅｎｌａｂｅｌｓ，ａｎｄｔｈｅｎｃａｌｃｕｌａｔｅｄｔｈｅｓｉｍｉｌａｒｉｔｙｃｏｅｆｆｉｃｉｅｎｔｍａｔｒｉｘｂｅｔｗｅｅｎｌａｂｅｌｓａｃｃｏｒｄｉｎｇｔｏｔｈｅｈｉｅｒａｒｃｈｙｃｈａｒｔｆｏｒｔｈｅｂａｄ

ｉｎｆｏｒｍａｔｉｏｎ．Ｆｉｎａｌｌｙ，ｉｎｔｈｅｖｏｔｉｎｇｐｒｏｃｅｓｓｏｆＲＡｋＥＬ，ｉｔｆｉｇｕｒｅｄｏｕｔｔｈｅｒｅｓｕｌｔｓｅｔｗｉｔｈｔｈｅｓｉｍｉｌａｒｉｔｙｃｏｅｆｆｉｃｉｅｎｔｍａｔｒｉｘ．Ｅｘｐｅｒｉ

ｍｅｎｔａｌｒｅｓｕｌｔｓｏｎｔｈｅｒｅａｌｃｏｒｐｕｓｉｎｖｏｌｖｉｎｇｂａｄｉｎｆｏｒｍａｔｉｏｎｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｃａｎａｃｈｉｅｖｅｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅｃｏｍ

ｐａｒｅｄｔｏｔｒａｄｉｔｉｏｎａｌｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｓ．

Ｋｅｙｗｏｒｄｓ：ｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｌａｂｌｅｓ；ｂａｄｉｎｆｏｒｍａｔｉｏｎ；ｓｉｍｉｌａｒｉｔｙｃｏｅｆｆｉｃｉｅｎｔ；ｓｉｍｉｌａｒｉｔｙｃｏｅｆｆｉ

ｃｉｅｎｔｍａｔｒｉｘｂｅｔｗｅｅｎｌａｂｌｅｓ

０　引言

数据分类是数据挖掘的一个重要研究方向，一直以来，数

据分类问题和方法受到了人们的广泛关注和研究

［１］

。对于多

标签分类问题，目前主要的解决途径分为问题转换和算法适应

两种

［２～４］

。问题转换的基本思想是通过对多标签训练样本进

行处理，将多标签分类问题转换为其他已知的学习问题求解；

算法适应是通过对常用的监督学习算法进行改进，将其直接用

于多标签分类。ＢＲ（ｂｉｎａｒｙｒｅｌｅｖａｎｃｅ）

［２］

方法是将多标记学习

问题转换为若干个独立的二分类学习问题，它把每一个标签的

预测视为一个独立的单分类问题，并为每一个标签训练一个独

立的分类器，用全部的训练数据对每个分类器进行训练。这种

方法简便易行，但忽略了标签之间的相互关系，如果直接将其

运用在不良信息分类上，预测结果也往往难以令人满意。

ＭＬ

ＫＮＮ

［５］

算法以及对其改进的基于粒计算的Ｋ近邻算法

［６］

是一

种简单且非常有效的解决多标签问题的方法，它利用最大化后

验原则来确定待预测样本的标签集。然而，它仅针对每一个独

立标签来统计其在近邻中被包含的数量，忽略了各个标签之间

可能存在的相关性。ＬＰ（ｌａｂｅｌｐｏｗｅｒｓｅｔ）

［１］

方法是一种简单有

效的多标签分类方法，它的基本思想是将训练集中对象所属的

标签集合作为一个新的标签，从而将多标签分类问题转换为一

第３３卷第４期

２０１６年４月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３３Ｎｏ．４

Ａｐｒ．２０１６

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

评论收藏

内容反馈

weixin_38570406

粉丝: 9
资源: 951

基于标签相似度的不良信息多标签分类方法 (2016年)

最新资源

基于标签相似度的不良信息多标签分类方法 (2016年)

基于标签相似度的不良信息多标签分类方法

电信设备-基于相似度的多模态信息分类贡献差异性计算方法.zip

基于物品相似度的推荐算法.pdf

基于文本相似度的自动文摘评论

基于相似度的多标签分类算法优化.pdf

基于语义相似度的评价方法

论文研究-基于直觉模糊相似度的直觉模糊三支决策方法.pdf

论文研究-基于标签相似度的协作者推荐研究 .pdf

电信设备-基于证据相似度的多传感器信息融合方法.zip

论文研究-基于结构相似度的快速运动估计算法.pdf

基于Tanimoto相似度的小电流接地故障定位方法及系统与流程.docx

基于句子相似度矩阵构建图结构实现文本摘要任务-数据集

基于物品相似度的推荐算法.pptx

基于单词相似度的文本聚类

基于语义相似度计算的词汇语义自动分类系统.pdf

基于语义相似度的Web服务发现研究 07.pdf 论文

论文研究-基于词汇语义信息的文本相似度计算.pdf

基于语义相似度的中文文本相似度算法研究

基于TJA1080的FlexRay节点驱动电路设计 (2015年)

Savitzky-Golay平滑滤波器的最小二乘拟合原理综述 (2011年)

基于STM32的全相位FFT相位差测量系统 (2010年)

自适应强跟踪容积卡尔曼滤波算法 (2013年)

基于合同网的多agent任务分配分布式优化算法 (2001年)

有源相控阵天线EIRP测量及误差分析 (2014年)

基于AFE4400的脉搏血氧饱和度检测系统 (2015年)

基于ZEMAX的半导体激光器非球面准直透镜设计 (2013年)

基于Matlab/Simulink的水下航行器建模与仿真 (2012年)

以太网MAC-MAC互连的分析及实现 (2005年)

最新资源