svm多分类，支持向量机（SVM）_SVM结合torch资源-CSDN文库

共78个文件

py：50个

txt：9个

csv：9个

需积分: 3 113 浏览量 2023-02-08 13:06:12 上传评论收藏 29.79MB ZIP 举报

支持向量机（SVM，Support Vector Machine）是一种在机器学习领域广泛应用的监督学习模型，尤其在二分类问题上表现出色。它通过构建一个最大边距超平面来将不同类别的数据分离开来，以此达到分类的目的。在多分类问题中，SVM通常采用一对一或一对一的方式进行处理。在Python编程环境中，有两个流行的库可以用于实现SVM：PyTorch和Scikit-learn。PyTorch是一个基于Torch的深度学习框架，适合构建复杂的神经网络结构，而Scikit-learn则是一个轻量级且功能强大的机器学习库，内置了多种经典的机器学习算法，包括SVM。在PyTorch中实现SVM，需要自定义损失函数和优化器，因为PyTorch默认不提供SVM的直接实现。通常，我们会用到Hinge损失函数，这是一种最大化间隔的损失函数。优化器可以选择SGD（随机梯度下降）或其他优化策略。代码实现过程可能涉及张量操作、反向传播和训练循环等步骤。而在Scikit-learn中，实现SVM非常简单，只需要调用`sklearn.svm.SVC`类，并配置相应的参数即可。这个库提供了多种核函数选择，如线性、多项式、RBF（高斯核）和sigmoid，其中RBF核通常在非线性问题中表现良好。除了核函数，还可以设置C参数（正则化参数）和gamma参数（与核函数相关的参数），以调整模型的复杂度。在提供的压缩包文件"svm_sentiment_analysis-master"中，很可能是关于情感分析的一个项目。情感分析是自然语言处理（NLP）的一个任务，目标是识别文本中的情绪倾向。在这个项目中，SVM可能被用来对文本数据进行多分类，例如正面、负面和中立情感的分类。实现情感分析通常包括以下步骤： 1. 数据预处理：清洗文本，去除噪声（如标点符号、停用词），并进行词干提取或词形还原。 2. 特征提取：将文本转化为数值特征，如词袋模型、TF-IDF或词嵌入（如Word2Vec或GloVe）。 3. 划分数据集：将数据分为训练集、验证集和测试集，以便于模型训练和评估。 4. 模型训练：使用SVM或其他分类算法对训练集进行训练。 5. 模型评估：在验证集上调整模型参数，找到最佳模型，并在测试集上评估最终性能。 6. 应用：将训练好的模型应用于新的未知文本数据。 SVM在处理高维和小样本数据集时通常表现出良好的泛化能力，但计算复杂度较高，当数据量很大时可能会比较慢。因此，在实际应用中，需要根据数据特性和任务需求来选择合适的模型和参数。同时，与其他模型结合，如集成学习，也可以进一步提高分类效果。

资源推荐

资源详情

资源评论

收起资源包目录

svm_sentiment_analysis-master.zip （78个子文件）

svm_sentiment_analysis-master

multi_svm_real

svm_multiclass_train.py 2KB

sklearn_multiclass.py 1KB

svm_multiclass_predict.py 3KB

val.csv 559KB

train.csv 1.62MB

corpus.csv 3.98MB

preprocession.py 2KB

test.csv 287KB

multi_svm_demo

main.py 3KB

data

mnist_test.csv 17.44MB

test_new.py 4KB

model

self_multiclass.py 7KB

sklearn_multiclass.py 2KB

requirements.txt 54B

test.py 1KB

data

val.csv 559KB

train.csv 1.62MB

test.csv 287KB

text_cnn

infer.sh 91B

evaluate.py 2KB

vocab.pickle 34KB

data

test_01_03.txt 903KB

train_fasttext.txt 289KB

transfer2train.py 430B

train_sentiment.txt 3.7MB

train_01_03.txt 3.73MB

test_sentiment.txt 894KB

save_model

char_cnn

checkpoint 93B

charcnn_Model.ckpt.index 2KB

labels.txt 6KB

charcnn_Model.ckpt.meta 177KB

charcnn_Model.ckpt.data-00000-of-00001 20.22MB

infer.py 1KB

model

birnn_attention

TrainModel.py 5KB

RNN_Attention.py 4KB

Processing.py 2KB

Infer.py 3KB

DMN

DynamicMemoaryNet.py 24KB

leam

LableEmbeddingAttentionModel.py 5KB

TrainModel.py 5KB

Processing.py 2KB

Infer.py 2KB

transformer

TrainModel.py 5KB

Transformer.py 11KB

Processing.py 2KB

Infer.py 2KB

han

TrainModel.py 5KB

HANModel.py 7KB

Processing.py 3KB

textrnn

TextRNN.py 4KB

TrainModel.py 5KB

Processing.py 2KB

Infer.py 3KB

char_cnn

Char_CNN.py 5KB

TrainModel.py 4KB

Processing.py 2KB

Infer.py 2KB

fast_text

TrainModel.py 391B

Infer.py 408B

textcnn

TrainModel.py 5KB

Processing.py 2KB

Infer.py 2KB

TextCNN.py 4KB

ulmfit

ULMFIT.py 2KB

train.sh 58B

test.txt 674B

train.py 4KB

README.md 293B

config

config.json 3KB

Config.py 227B

chat_sentiment_analysis

2.py 2KB

chat_analysis.py 2KB

chat_predict.py 2KB

data_helper.py 555B

stop_words.txt 6KB

README.md 4KB

corpus.csv 3.98MB

preprocession.py 2KB

# comments_analysis &emsp;&emsp;基于word2vec的评论情感分类器，所有的数据均来源于项目[app_comments_spider](https://github.com/StanleyLsx/app_comments_spider)，通过word2vec对带有评分的句子的词向量进行学习，然后去预测其他的不带评分的评论，进一步的，可以找出评论中的意见与建议等。 ## 环境与配置 &emsp;&emsp;python为3.6版本，所需的python相关包在requirements下，主要有jiaba、gensim、sklearn等。在进行训练前，需要将数据库的数据导入的excel中，过程由database2xls.py文件完成，相应的，需要在该文件的 `comment_db = DataBase('', '', '', '')` 中填好数据库地址、账号、密码和数据库，由于appstore和taptap都是五星制的评价，所以git项目中为了简单起见，将三星及三星以下做为差评，三星以上作为好评，并将数据整理到comment.xls这个excel中用于二分类问题的预测。 ## word2vec简介 &emsp;&emsp;word2vec是google在2013年推出的一个NLP工具，它的特点是将词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系，word2vec有两种模型的实现，分别是CBOW和Skip-Gram模型，前者是通过上下文词向量推断中间的某个词向量，后者是推断特定词对应的上下文词向量，本质上都是基于DNN神经网络的神经网络的相关算法基础可以参考[这里](https://github.com/StanleyLsx/machinelearning#3)，这里讲了DNN、CNN、RNN的原理和相应的算法。word2vec的官方文档可以参考[这里](https://radimrehurek.com/gensim/index.html)，讲得比较好的还有刘建平的[博客](https://www.cnblogs.com/pinard/p/7160330.html)。 ## 原理与训练 &emsp;&emsp;关于中文nlp处理的步骤一般是: * 分析需求，预测哪个列?二分类还是多分类?需要什么样的结果? * 获得数据，一般可以直接来源于数据库，也可以间接通过爬虫实现，[app_comments_spider](https://github.com/StanleyLsx/app_comments_spider)便是本文中的数据来源。 * 文本预处理，一般先使用jiaba这个工具对句子或者文本进行分词，jieba默认采用的是HMM模型分词，[这里](https://github.com/fxsjy/jieba)是项目地址。划分出来的词一般还要去掉停用词，项目中的stop_words.txt放的就是一些停用词。 * 特征处理，在本文中即词汇的向量化，将文本预处理之后的词汇利用word2vec进行向量化，有的热点文章还需要使用TF-IDF对文本进行预处理，TF-IDF即词频-逆文本频率，对于高频词汇降低其重要性，对出现频率少的词提高其重要性。 * 建立模型，通过向量化后的词汇和相应的输出训练svm、逻辑回归这些分类器，调参获得更好的准确率和r_score，最后拿着建立好的模型去预测。 &emsp;&emsp;项目的preprocession.py文件将获得评论进行分词、去停用词和训练数据集的划分。comment_analysis.py会将训练数据集和测试数据集的评论中的词汇通过word2vec进行向量化，每个词汇有300个维度，然后对每个句子求它所含有的词汇向量的平均值并归一化，并把训练好的词向量保存为w2v_model.pkl。最后，用训练数据集中句子的向量平均值去训练svm数据，通过预测结果和测试数据集的对比得到score，训练数据集够量的时候，预测准确度接近90%，把训练好的模型保存为svm_model.pkl以备后面直接载入进行预测调用。 ## 预测 &emsp;&emsp;最后，comment_predict.py文件用来做评论预测，对于新的评论，它也会对这些句子进行预处理(分词、去停用词)，然后向量化句子中的每个词汇，求句子的词汇向量平均值，然后直接把处理好的向量送进svm进行预测。

评论收藏

内容反馈