VSM向量空间模型对文本的分类以及简单实现_向量空间模型VSM资源-CSDN文库

4星 · 超过85%的资源需积分: 45 196 浏览量 2012-09-04 20:13:39 上传评论 3 收藏 4KB TXT 举报

资源推荐

资源详情

资源评论

VSM向量空间模型对文本的分类以及简单实现

1：对文本的分类，不管用什么高级的方法，首先还是需要建立数学模型的，这个地方就用SVM来建立，他的原理是根据文本的特征，比如一个文本有10个特征（一般来说每个特征是一个代表这个文本的关键词），那么这个文本向量大小就是10了。具体的每个值就是这个特征的权重（关于权重的计算很多种，我这个地方只用了词频来代表）。然后读入测试本文，根据该测试文本中的特征，看和样本中的特征的向量做运算，这个地方用的是求向量的夹角，用余弦值来表达，夹角大的就偏的远，否则比较近（这个地方没考虑到角度大于90°的情况）。

2：这个例子是为了我接下来做SVM用的，对于搞此类的算是个入门。我觉得这个效果要和输入的样本特征关系很大，我对同类的比如股票下不同类别来做判断，基本也可以判断出来权重。

3：java源代码如下：

package com.baseframework.sort;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.Vector;

public class VsmMain {

public static void main(String[] args) {

VsmMain vsm = new VsmMain();
String basePath = vsm.getClass().getClassLoader().getResource("")
.toString().substring(6);
String content = vsm.getContent(basePath + "article.txt");
Vector<Vector<String>> samples = vsm.loadSample(basePath + "sort.txt");

vsm.samilarity(content, samples);

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

评论收藏

内容反馈