降维资源-CSDN文库

共8个文件

pdf：6个

caa：1个

caj：1个

降维算法

5星 · 超过95%的资源需积分: 4 25 浏览量 2009-05-19 12:25:19 上传评论收藏 2.72MB RAR 举报

资源详情

资源评论

资源推荐

收起资源包目录

.rar （8个子文件）

降维

八点算法的降维技术.caj 71KB

文本挖掘中特征降维方法比较研究.pdf 1.17MB

一篇关于流行学习的博士论文.caa 388B

一种降维新方法.pdf 177KB

一种新的等距映射下的降维方法.pdf 548KB

基于直接估计梯度思想的数据降维算法.pdf 260KB

高维数据特征降维研究综述.pdf 236KB

已有降维方法的推广.pdf 690KB

数据库与信息管理

本栏目责任编辑

：

闻翔军

１

引言

随着互联网的大规模普及和企业信息化程度的

提高

，

文本信息的快速积累使公司

、

政府和科研机构

在信息处理和使用中面临前所未有的挑战

。

一方面

，

互联网和企业信息系统每天都不断产生大量文本数

据

，

这些文本资源中蕴含着许多有价值的信息

；

而另

一方面因为技术手段的落后

，

从大量数据资源中获取

需要的信息十分困难

。

人们迫切需要研究出方便有效

的工具去从大规模文本信息资源中提取符合需要的

简洁

、

精炼

、

可理解的知识

，

文本挖掘应运而生

。

文本

挖掘通常采用向量空间模型

（ＶＳＭ）

［１］

来表示文本特征

，

即通过计算文本中词条出现的频度来构造文本

－

词条

矩阵

，

而文本中出现的词条数量众多

，

因此

，

文本特征

矩阵总是表现出成千上万甚至更大的维数

，

使得文本

挖掘处理工作计算非常复杂

，

解决这一问题的方法就

是先对文本特征矩阵进行降维

。

本文对几种不同的降

维方法及其在文本挖掘中的优缺点进行理论分析与

性能比较

。

２

降维技术

文本特征的研究对文本挖掘具有非常重要的意

义

，

因为文本特征是影响挖掘系统性能的最主要的因

素

。

目前对文本特征的研究主要集中在以下两个方

面

：

横向选择和纵向投影

［２］

。

（１）

横向选择

：

即文本特征选择

，

是指剔除噪声文

档以改进挖掘精度

，

或者在文档数量过多时仅选取一

部分样本以提高挖掘效率

。

在进行特征选择时

，

一般

都是利用某种评价函数独立地对每个原始特征项进

行评分

，

然后将它们按分值的高低排序

，

从中选取若

干个分值最高的特征项

。

目前比较成熟的特征选择方

法主要有

：

文档频数

、

信息增益

、

期望交叉熵

、

互信息

、

文本证据权

、

优势率

、

ｘ

２

统计

（ＣＨＩ）

等

。

（２）

纵向投影

：

即文本特征的抽取

，

是指按照挖掘

目标选取有用的特征

，

通过特征集的缩减

，

就可以得

到代表文档集合的有效的

、

精简的特征子集

，

在此基

础上可以开展各种文本挖掘工作

，

即获取什么类型的

特征

，

获取特征的过程也是形成原始特征集的过程

。

常用的特征抽取方法有

：

主成分分析

、

非负矩阵分解

、

潜在语义索引等

。

收稿日期

：

２００７－１２－１２

作者简介

：

孙铁利

（

１９５６－

），

男

，

吉林长春人

，

教授

，

博士生导师

，

主要研究领域为智能用户接口

、

知识工程

、

智能

Ａｇｅｎｔ

；

张妍

（

１９８１－

），

女

，

内蒙赤峰人

，

硕士研究生

，

主要研究领域为文本分类

；

李晓微

（

１９８２－

），

女

，

吉林松原人

，

硕士研究生

，

主要研究领域为信息过滤

。

文本挖掘中特征降维方法比较研究

孙铁利

，

张妍

，

李晓微

（

东北师范大学计算机学院

，

吉林长春

１３０１１７

）

摘要

：

研究了文本挖掘中的高维特征选取问题

，

对常见的降维主要方法

：

特征选择和特征抽取等算法进行

了理论分析与性能比较

，

评价了它们的优缺点和适用范围

。

关键词

：

文本挖掘

；

降维算法

；

特征选择

；

特征抽取

中图分类号

：

ＴＰ１８

文献标志码

：

Ａ

文章编号

：

１００９－３０４４（２００８）０２－１０２０１－０４

ＴｈｅＲｅｓｅａｒｃｈｏｎＤｉｍｅｎｓｉｏｎＲｅｄｕｃｔｉｏｎＭｅｔｈｏｄｓｏｆＴｅｘｔＭｉｎｉｎｇ

ＳＵＮＴｉｅ－ｌｉ，ＺＨＡＮＧＹａｎ，ＬＩＸｉａｏ－ｗｅｉ

（ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅＳｃｉｅｎｃｅ，ＮｏｒｔｈｅａｓｔＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｃｈａｎｇｃｈｕｎ１３０１１７，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｆｅａｔｕｒｅ：Ｓｅｌｅｃｔｉｏｎｉｓｔｈｅｋｅｙｔｅｃｈｎｏｌｏｇｙｉｎｔｈｅｔｅｘｔｍｉｎｉｎｇｆｉｅｌｄ．Ｆｅａｔｕｒｅｒｅｄｕｃｔｉｏｎｍｅｔｈｏｄｉｎｖｏｌｖｅｓ

ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎａｎｄｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ．Ｔｈｉｓｐａｐｅｒｓｔｕｄｉｅｓｔｈｅｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎａｎｄｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎａｌｇｏｒｉｔｈｍｓ，

ｄｉｓｃｕｓｓｅｓｓｏｍｅｆａｍｉｌｉａｒａｌｇｏｒｉｔｈｍｓ．Ｔｈｅｉｒａｄｖａｎｔａｇｅａｎｄｄｉｓａｄｖａｎｔａｇｅａｒｅｅｖａｌｕａｔｅｄ．

Ｋｅｙｗｏｒｄｓ：ｔｅｘｔｍｉｎｉｎｇ；ｄｉｍｅｎｓｉｏｎａｌｉｔｙｒｅｄｕｃｔｉｏｎ；ｆｅａｔｕｒｅｓｅｌｅｃｔｉｏｎ；ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ．

２０１

数据库与信息管理

本栏目责任编辑

：

闻翔军

电脑知识与技术

理论上讲

，

文本集的特征越多就能越好地表示文

本

，

而实践证明并非总是如此

。

特征抽取方法得到的

原始特征规模很大

，

采用向量空间模型表示文本时

，

文本向量会达到数万维

。

过大的特征空间将导致此后

的文本挖掘过程耗费更多的时间和空间资源

，

因此从

原始特征集中选取最具代表性的特征是十分必要的

。

以下对特征选择和特征抽取中涉及的不同方法进行

介绍

。

３

特征选择

３．１

评估函数法

这种方法是在特征独立的假设基础上

，

通过构造

评估函数

，

对特征集合中的每个特征进行独立评估

，

并对每个特征打分

，

然后将所有特征按分值大小排

序

，

提取预定数目的最优特征作为提取结果的特征子

集

。

文本挖掘的特征选择基本框架如图

１

所示

。

常用的评估函数有以下几种

：

（

１

）

文档频率法

（ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ

，

ＤＦ）

文档频率法是一种最为简单的特征选择算法

，

它

指的是在整个文本集中有多少文本包含这个词语

。

文

档频率法基于假设

：

对一个类来说

，

出现次数过少的

词语是没有意义的

，

他们的删除对分类结果不仅不会

造成不利的影响

，

相反可能还会有所提高

，

特别是那

些稀有的词语刚好是噪声词时

。

文档频率法最大的优

点就是速度快

，

它的时间复杂度跟文档规模成线性关

系

，

非常适合于超大规模的文档集的特征选择

。

图

１

用于文本挖掘的特征选择

（

２

）

信息增益

（ＩｎｆｏｒｍａｔｉｏｎＧａｉｎ

，

ＩＧ）

ＩＧ

是一种在机器学习领域应用较为广泛的特征

选择方法

。

它从信息论角度出发

，

以各特征取值情况

来划分学习样本空间

，

根据所获信息增益的多少来筛

选有效的特征

。

ＩＧ

可以用下式表示

：

（１）

式中

ｐ（Ｃ

ｉ

｜ｔ）

表示文本中出现词条

ｔ

时文本属于

Ｃ

ｉ

的概率

，

ｐ（Ｃ

ｉ

｜ｔ）

表示文本中不出现词条

ｔ

时文本属于

Ｃ

ｉ

的概率

，

Ｐ（Ｃ

ｉ

）

表示类别出现的概率

，

Ｐ（ｔ）

表示语料中

包含词条

ｔ

的文本的频率

。

（３）

互信息

（ＭｕｔｕａｌＩｎｆｏｒｍａｔｉｏｎ

，

ＭＩ）

在统计语言模型中

，

互信息用于表征两个变量间

（

表征

ｆ

和类别

ｃ

之间

）

的相关性

。

其互信息记作

ＭＩ（ｆ，

ｃ）

，

可由下式计算

：

（２）

互信息没有考虑单词发生的频度

，

这是互信息一

个很大的缺点

，

它导致互信息评估函数经常倾向于选

择稀有词

。

（

４

）

ｘ

２

统计

（ＣＨＩ）

ｘ

２

统计方法度量词条

ｔ

和文档类别之间的相

关程度

，

并假设

ｔ

和

ｃ

之间符合具有一阶自由度的

ｘ

２

分布

。

令

Ｎ

表示训练语料中的文本总数

，

ｃ

为某一特

定类别

，

ｔ

表示特定的词条

，

Ａ

表示属于

ｃ

类且包含

ｔ

的文档频数

，

Ｂ

表示不属于

ｃ

类但是包含

ｔ

的文档频

数

，

Ｃ

表示属于

ｃ

类但是不包含

ｔ

的文档频数

，

Ｄ

是既

不属于

ｃ

也不包含

ｔ

的文档频数

，

则

ｔ

对于

ｃ

的

ＣＨＩ

值由下式计算

：

（３）

对于多类问题

，

分别计算

ｔ

对于每个类别的

ＣＨＩ

值

，

再用下式计算词条

ｔ

对于整个语料的

ＣＨＩ

值

，

分

别进行检验

。

（４）

式中

ｍ

为类别数

。

从原始特征空间中移除低于

特定阈值的词条

，

保留高于该阈值的词条作为文档表

２０２

Dcing__

2012-11-02

降维算法，谢谢作者，很不错！

评论收藏

内容反馈

dujianlin86

粉丝: 0
资源: 14

降维

评论1

最新资源

降维

评论1

2.降维1

10.降维1

5 降维方法1

ISOMAP降维

数据降维方法

适合近红外光谱数据特征的降维方法对比分析

Matlab数据降维工具箱 包括几乎所有的数据降维方法

PYthon降维.pptx

tsne降维python可视化

高维数据降维方法研究

pca降维

pca降维,pca降维

数据降维.rar

松动模型降维_降维方法_降维_

降维工具箱

实验三_python_降维_评估_

数据降维34种方法，用Matlab编译

Lasso降维算法MATLAB

利用kpca对高维数据进行降维

数据降维pdf讲义超详细

PCA降维（openCV）

快速PCA降维

pca_pca_pca降维_降维_

降维与特征选择

fast PCA降维

数据降维方法综述

KPCA_KPCA_KPCA降维_kca_核主成分_降维_

数据降维的处理工作接触到drtoolbox工具箱

代码 34种数据降维方法代码

最新资源

Matlab数据降维工具箱包括几乎所有的数据降维方法