没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
4页
In the multi-label classification, the relationship between the labels plays an important role in affecting the performance of classification. The traditional methods of multi-label classification handled each label independently, ignored the influence of
资源推荐
资源详情
资源评论
收稿日期:20141217;修回日期:20150203 基金项目:国家自然科学基金资助项目(81360230);国家科技部科技型中小企业技术创
新基金资助项目(13C26215305404)
作者简介:刘卓然 (1989),男,硕士研究生,主要研究方向为机器学习、自然语言处理;胡杨(1991),男,江苏南通人,硕士研究生,主要研究
方向为机器学习、信息检索;刘骊(1979),女,讲师,博士,主要研究方向为机器学习、嵌入式技术、计算机图形处理;冯旭鹏(1986),男,硕士,主要
研究方向为信息检索;刘利军(1978),男,讲师,硕士,主要研究方向为医疗信息服务;黄青松(1962),男(通信作者),教授,主要研究方向为智能
信息系统(ynkmhqs@sina.com).
基于标签相似度的不良信息多标签分类方法
刘卓然
1a
,胡 杨
1a
,刘 骊
1a
,冯旭鹏
1b
,刘利军
1a
,黄青松
1a,2
(1.昆明理工大学 a.信息工程与自动化学院;b.教育技术与网络中心,昆明 650500;2.云南省计算机技术应用
重点实验室,昆明 650500)
摘 要:在多标记分类中,标签与标签之间的相关关系是影响分类效果的一个重要因子。传统的经典多标签分
类方法如 BR算法、MLKNN算法等,忽略了标签之间的相关关系对实际分类的影响,分类效果一直不能令人满
意;面对类别关联度极高的不良信息的多标签分类,分类效果更是大打折扣。针对上述问题,通过改进经典的多
标签分类算法 RAkEL,首先根据训练文本计算出各标签之间的相似度系数,然后再根据自定义不良信息层次关
系计算出综合标签相似度系数矩阵,最后在
RAkEL算法投票过程中根据综合标签相似度与中心标签重新确定
最终的结果标签集合。与传统的分类方法在真实的语料库上进行多标签分类效果对比,结果证明,该方法对不
良信息分类具有较好的效果。
关键词:多标签分类;标签之间的相关关系;不良信息;中心标签;标签相似度系数矩阵
中图分类号:TP391.43 文献标志码:A 文章编号:10013695(2016)04098904
doi:10.3969/j.issn.10013695.2016.04.006
Multilabelclassificationmethodof
badinformationbasedonlabelsimilarity
LiuZhuoran
1a
,HuYang
1a
,LiuLi
1a
,FengXupeng
1b
,LiuLijun
1a
,HuangQingsong
1a,2
(1.a.FacultyofInformationEngineering&Automation,b.EducationalTechnology&NetworkCenter,KunmingUniversityofScience&Tech
nology,Kunming650500,China;2.YunnanKeyLaboratoryofComputerTechnologyApplications,Kunming650500,China)
Abstract:Inthemultilabelclassification,therelationshipbetweenthelabelsplaysanimportantroleinaffectingtheperform
anceofclassification.Thetraditionalmethodsofmultilabelclassificationhandledeachlabelindependently,ignoredtheinflu
enceoftherelationshipbetweenlabels,sothattheeffectoftheclassificationwasoftennotsatisfactory,especiallyinthesitua
tionofdealingwiththebadinformation.Aimingattheseproblemsabove,thispaperpresentedamodifiedalgorithmbasedon
theRA
kEL,aclassicalgorithmsforthemultilabelclassification.Thealgorithmfirstlyworkedoutthesimilaritycoefficientbe
tweenlabels,andthencalculatedthesimilaritycoefficientmatrixbetweenlabelsaccordingtothehierarchychartforthebad
information.Finally,inthevotingprocessofRAkEL,itfiguredouttheresultsetwiththesimilaritycoefficientmatrix.Experi
mentalresultsontherealcorpusinvolvingbadinformationshowthattheproposedmethodcanachievebetterperformancecom
paredtotraditionalmultilabelclassificationmethods.
Keywords:multilabelclassification;relationshipbetweenlables;badinformation;similaritycoefficient;similaritycoeffi
cientmatrixbetweenlables
0 引言
数据分类是数据挖掘的一个重要研究方向,一直以来,数
据分类问题和方法受到了人们的广泛关注和研究
[1]
。对于多
标签分类问题,目前主要的解决途径分为问题转换和算法适应
两种
[2~4]
。问题转换的基本思想是通过对多标签训练样本进
行处理,将多标签分类问题转换为其他已知的学习问题求解;
算法适应是通过对常用的监督学习算法进行改进,将其直接用
于多标签分类。BR(binaryrelevance)
[2]
方法是将多标记学习
问题转换为若干个独立的二分类学习问题,它把每一个标签的
预测视为一个独立的单分类问题,并为每一个标签训练一个独
立的分类器,用全部的训练数据对每个分类器进行训练。这种
方法简便易行,但忽略了标签之间的相互关系,如果直接将其
运用在不良信息分类上,预测结果也往往难以令人满意。
ML
KNN
[5]
算法以及对其改进的基于粒计算的 K近邻算法
[6]
是一
种简单且非常有效的解决多标签问题的方法,它利用最大化后
验原则来确定待预测样本的标签集。然而,它仅针对每一个独
立标签来统计其在近邻中被包含的数量,忽略了各个标签之间
可能存在的相关性。LP(labelpowerset)
[1]
方法是一种简单有
效的多标签分类方法,它的基本思想是将训练集中对象所属的
标签集合作为一个新的标签,从而将多标签分类问题转换为一
第 33卷第 4期
2016年 4月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.33No.4
Apr.2016
资源评论
weixin_38570406
- 粉丝: 9
- 资源: 951
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功