论文研究-一种面向文本分类的特征向量优化方法.pdf_中文文本分类特征向量模型资源-CSDN文库

机器学习,Mahout,特征向量,向量优化,文本分类

需积分: 19 34 浏览量 2019-07-22 21:36:36 上传评论收藏 2.13MB PDF 举报

资源详情

资源评论

收稿日期

! !"#$%"+%!*"

修回日期

! !"#$%"*%"* ''

基金项目

国家自然科学基金资助项目

#$#)*"#)& $"

北京市教委科研计划面上项目

#e[!"#(##!)!"#($ "

北京市属高等学校创新团队建设与教师职业发展计划项目

# QY-6!"#)"+#&$"

北京信息科技大学促进高校内涵发展专项项目

#+###$!)(")$

作者简介

郭正斌

##&&)%$%

男

山东潍坊人

硕士

主要研究方向为自然语言处理

#GL3RFA>GI:>##/#$)1234$"

张仰森

##&$!%$%

男

山西临猗人

教授

博士

后

主要研究方向为自然语言处理

人工智能

蒋玉茹

##&*.%$%

女

辽宁沈阳人

讲师

博士研究生

主要研究方向为自然语言处理

一种面向文本分类的特征向量优化方法

郭正斌

张仰森

蒋玉茹

北京信息科技大学智能信息处理研究所

北京

#""#&!$

摘

要

对文本进行建模的普遍方法是使用向量空间模型构建文本向量

并利用权值调整和维度调整对文本

向量进行优化

提出了一种面向文本分类的特征向量优化方法

首先利用剔除近义词方法优化文本向量中

的特征项

然后提出贡献率因子的概念

并利用其优化特征值

实验表明

相比朴素贝叶斯分类方法其效果提

高了

"1&$X'

因此

通过去除近义词和对提取出的特征词调整权重

可以达到优化特征向量

提高文本分类效

果的目的

关键词

机器学习

" [JF3LH"

特征向量

向量优化

文本分类

中图分类号

! 67)&#1#'''

文献标志码

! 8'''

文章编号

! #""#%)$&+#!"#*$".%!!&&%"(

93:!#"1)&$& ;<1:==>1#""#%)$&+1!"#*1".1"#)

TAJHLBA@A2H3B3EH:4:RJH:3> 4AHF39 D3BHASH2KJ==:D:2JH:3>

,L3NFA>GI:>% NFJ>GMJ>G=A>% f:J>GMLBL

#=.4*-*)*1%'=.*1&&-01.*=.'%2+,*-%. ;2%#144-.0% @1-A-.0 =.'%2+,*-%. "#-1.#1<C1#$.%&%086.-7124-*8% @1-A-.0 #""#&!% :$-.,$

!"#$%&'$! QH:=JGA>ABJK4AHF39 HFJHL=:>G@A2H3B=EJ2A439AKH323>=HBL2HJ@A2H3BH3BAEBA=A>HHASH16FABAJBAHC34AHF39=

H33EH:4:RAHFAHASH@A2H3B! J9<L=HCA:GFH=3BJ9<L=H9:4A>=:3>=16F:=EJEABEB3E3=A9 J>3@AKDAJHLBA@A2H3B3EH:4:RJH:3> 4AHF39

D3BHASH2KJ==:D:2JH:3>1T:B=H:H3EH:4:RA9 HFADAJHLBA=:> HASH@A2H3BIPBA43@:>GHFA=P>3>P4=1UA23>9 :HEB3E3=A9 J>3@AK23>%

2AEH***23>HB:ILH3BDJ2H3BH33EH:4:RAHFADAJHLBA@JKLA1VA=LKH=F3C=HFJHHFAHASH2KJ==:D:2JH:3> J22LBJ2P3DHF:=C3Ba :=:>%

2BAJ=A9 IP"1&$X 234EJBA9 C:HF HFAZJ:@A]JPA=:J> 4AHF3916FABAD3BA% IPBA43@:>G=P>3>P4=J>9 J9<L=H:>GHFACA:GFH3D

HFADAJHLBAC3B9=% :H2J> J2F:A@AHFAG3JK3D3EH:4:R:>GHFAHASH@A2H3BJ>9 :4EB3@:>GHFAJ22LBJ2P3DHASH2KJ==:D:2JH:3>1

()* +,%-#! 4J2F:>AKAJB>:>G" [JF3LH" DAJHLBA@A2H3B" @A2H3B3EH:4:RJH:3>" HASH2KL=HAB:>G

文本分类作为数据挖掘的一项研究内容

要从文本中获取

有价值的信息来处理

其任务是把文本划分到与它最相似的一

类

文本分类

早期使用的是词匹配法

知识工程等方法

这些

方法存在用时长

效率低的缺点

但随着互联网海量文本的出

现

统计和机器学习方法开始适用于这一领域

并逐渐成为主

流

(#%!)

现在的分类方法

通用的策略是首先对已分类好的数

据进行训练

生成分类模型

然后使用模型对未分类文本进行

自动分类

目前

很多研究者采用向量空间模型对文本进行向量化表

示后

采用距离计算的方法实现文本的分类

还有一些研究者采

用条件概率的方法

如朴素贝叶斯方法

实现文本分类

本文

将向量空间模型与概率模型相结合

首先通过向量空间模型对

文本进行表示

采用

6T%QYT

计算特征词的权重

对权重进行归

一化处理转换成概率后

再采用朴素贝叶斯的概率分类模型

实

现文本的分类

在利用向量空间对文本表示过程中

可能会出

现向量高维稀疏的问题以及近义词干扰的问题

向量高维稀

疏

())

会导致文本分类模型训练得不充分

从而影响分类器的性

能

而近义词则会降低特征词的辨别力

进而也将影响文本分类

器的效果

本文拟从权值调整

降维两方面对向量空间进行优

化

利用贡献率因子 #和 " 调整权值和去除近义词

以实现向量

空间模型降维优化

提升文本分类器的分类效果

论文研究-一种面向文本分类的特征向量优化方法.pdf

评论0

最新资源

论文研究-一种面向文本分类的特征向量优化方法.pdf

评论0

最新资源

相关推荐

论文研究-一种面向电子邮件分类的特征值处理方法.pdf

论文研究-一种面向网络话题发现的增量文本聚类算法.pdf

论文研究-基于类别特征向量表示的中文文本分类算法.pdf

论文研究-一种基于特征向量的指纹匹配算法 .pdf

论文研究-一种SIFT特征向量生成并行结构设计 .pdf

论文研究-一种低信噪比下的特征向量类信源数估计算法.pdf

论文研究-基于特征向量的遥感影像自动分类研究.pdf

论文研究-面向在线产品评论数据的有效性建模与测度研究.pdf

论文研究-面向游戏客服场景的自动问答系统研究与实现.pdf

数据挖掘论文合集-242篇（part1）

数据挖掘论文合集-242篇（part3）

论文研究-互补判断矩阵的两种排序方法——权的最小平方法及特征向量法.pdf

论文研究-一种基于特征向量的超声图像配准方法.pdf

论文研究-灰色决策问题的特征向量方法.pdf

论文研究-采用位平面直方图特征向量的图像检索方法.pdf

数据挖掘论文合集-242篇（part2）

论文研究-基于矩阵分解和子模最大化的微博新闻摘要方法.pdf

数据挖掘在各行业的应用论文

Qt 5实现串口调试助手 （源工程文件、0积分下载）

【SystemVerilog】路科验证V2学习笔记（全600页）.pdf

AutoSAR标准协议4.2.2

光伏-储能并网系统仿真.rar

NPPJSONViewer.zip

GD32替换STM32注意事项.pdf

XCP协议的规范文档

VS2015安装证书，JavaScript_ProjectSystem.msi，JavaScript_LanguageService.msi

CANoe通过CAPL脚本实现自动测试

蓝牙BLE协议中文版.pdf

BaiduOCR.zip

Qt 5实现串口调试助手（源工程文件、0积分下载）