#一.毕业设计主题
基于半监督学习和集成学习的情感分析研究
#二.数据
text/JDMilk.arff[tf-idf]
--对于baseline
7%作为训练集
30%作为测试集
--对于SSL alg
7%作为训练集
63%无标注数据集
30%作为测试集
参考:[高伟女硕士]基于随机子空间自训练的半监督情感分类方法
**切分训集和测试集**
四折交叉验证
具体做法是:将数据集分成四份,轮流将其中3份作为训练数据,1份作为测试数据,进行试验,最终采用10次结果的正确率的平均值作为对算法精度的估计
显然,这种估计精度的做法具有高时间复杂度
#三.测试标准
准确率(Accuracy)
#四.工具
python2.7
scikit,numpy,scipy
docker
#五.算法
##0.监督学习(SL)的分类器选择
选择标准:能够输出后验概率的
0.1支持向量机(SVC)
0.2朴素贝叶斯-多项式分布假设(MultinomialNB)
##1.半监督学习(SSL)
**1.1Self-Training**
最原始的半监督学习算法,但是容易学坏,压根没有改善,甚至出现更加差
Assumption:One's own high confidence predictions are correct.
其主要思路是首先利用小规模的标注样本训练出一个分类器,然后对未标注样本进行分类,挑选置信度(后验概率)最高的样本进行自动标注并且更新标注集,迭代式地反复训练分类器
![Self-Training](./pic/SelfTraining.png)
**1.2Co-Training**
特点:Original(Blum & Mitshell)是针对多视图数据(网页文本和超链接),从不同视图(角度)思考问题,基于分歧
Original视图为2,分别是网站文本和超链接
p=1,n=3,k=30,u=75
Rule#1:样本可以由两个或多个冗余的条件独立视图表示
Rule#2:每个视图都能从训练样本中得到一个强分类器
视图数量4比较好[来自苏艳文献]
每个视图内包含的特征数量m为:总特征数量n/2(来自王娇文献)
但是,普通情感评论文本(nlp)并没有天然存在的多个视图,考虑到情感文本中特征数量非常庞大,利用随机特征子空间生成的方式[RandomSubspaceMethod,RSM]将文本特征空间分为多个部分作为多个视图
但是视图之间至少得满足'redundant but notcompletely correlated'的条件
因为多个视图之间应该相互独立的,如果都是全相关,那么基于多视图训练出来的分类器对相同待标记示例的标记是完全一样的,这样一来Co-Training 算法就退化成了 self-training 算法(来自高原硕士文献)
**Ramdom Subspaces**
最早来源于Tin Kam Ho的*The Random Subspace Method forConstructing Decision Forests*论文,for improving weak classifiers.
①来自王娇博士文献叙述
假设原数据特征空间为n维 ,随机子空间为 m 维 ,满足 m < n.设标记数据集有l个数据,即| L| = l. 对任意 p ∈ L ,可写成 p = (p1 , p2 , …, pn),将p投影到这m维张成的空间中 ,得到的向量可写成 psub = ( ps1 , ps2 , …, psm)由所有 l 个 psub组成的向量集合Lsub ,就是标记数据集L在其 m维随机子空间中的投影. 重复此过程 K次 ,得到数据特征空间的 K个不同视图,Lsubk(1 ≤k ≤K)
Q:还是没有说清楚投影(切分)和随机这两者怎么实现?
②from wikipedia:
1.Let the number of training points be N and the number of features in the training data be D.
2.Choose L to be the number of individual models in the ensemble.
3.For each individual model l, choose dl (dl < D) to be the number of input variables for l. It is common to have only one value of dl for all the individual models.
4.For each individual model l, create a training set by choosing dl features from D with replacement and train the model.
③出处Tin Kam Ho的*The Random Subspace Method forConstructing Decision Forests*
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
数据:text/JDMilk.arff[tf-idf] 测试标准:准确率(Accuracy) 环境配置:python2.7 scikit,numpy,scipy docker 监督学习(SL)的分类器选择: 选择标准:能够输出后验概率的 1.支持向量机(SVC)2.朴素贝叶斯-多项式分布假设(MultinomialNB) 半监督学习(SSL):1.Self-Training 2.Co-Training
资源推荐
资源详情
资源评论
收起资源包目录
【毕业设计】基于半监督学习和集成学习的情感分析研究 (235个子文件)
unlabeled.arff 15.19MB
unlabeled.arff 15.19MB
unlabeled.arff 15.19MB
unlabeled.arff 15.18MB
unlabeled.arff 15.18MB
unlabeled.arff 15.18MB
unlabeled.arff 15.18MB
unlabeled.arff 15.18MB
unlabeled.arff 15.18MB
unlabeled.arff 15.18MB
unlabeled.arff 14.92MB
unlabeled.arff 14.92MB
unlabeled.arff 14.92MB
unlabeled.arff 14.92MB
unlabeled.arff 14.92MB
unlabeled.arff 14.92MB
unlabeled.arff 14.92MB
unlabeled.arff 14.92MB
unlabeled.arff 14.92MB
unlabeled.arff 14.92MB
JDMilk.arff 4.78MB
test.arff 3.85MB
test.arff 3.85MB
test.arff 3.85MB
test.arff 3.85MB
test.arff 3.85MB
test.arff 3.85MB
test.arff 3.85MB
test.arff 3.85MB
test.arff 3.85MB
test.arff 3.85MB
test.arff 3.79MB
test.arff 3.79MB
test.arff 3.79MB
test.arff 3.79MB
test.arff 3.79MB
test.arff 3.79MB
test.arff 3.79MB
test.arff 3.79MB
test.arff 3.79MB
test.arff 3.79MB
News2x2_ViewA.arff 1.62MB
News2x2_ViewB.arff 1.61MB
unlabeled_view0.arff 713KB
unlabeled_view0.arff 712KB
unlabeled_view0.arff 711KB
unlabeled_view0.arff 710KB
unlabeled_view0.arff 705KB
unlabeled_view0.arff 703KB
unlabeled_view1.arff 702KB
unlabeled_view1.arff 702KB
unlabeled_view1.arff 702KB
unlabeled_view1.arff 702KB
unlabeled_view1.arff 701KB
unlabeled_view1.arff 701KB
unlabeled_view1.arff 701KB
unlabeled_view0.arff 700KB
unlabeled_view1.arff 700KB
unlabeled_view1.arff 699KB
unlabeled_view1.arff 699KB
unlabeled_view0.arff 698KB
unlabeled_view0.arff 696KB
unlabeled_view0.arff 695KB
test_view0.arff 485KB
test_view0.arff 483KB
test_view0.arff 482KB
test_view0.arff 479KB
test_view0.arff 476KB
test_view0.arff 475KB
test_view1.arff 475KB
test_view1.arff 475KB
test_view1.arff 475KB
test_view1.arff 473KB
test_view1.arff 473KB
test_view1.arff 473KB
test_view1.arff 473KB
test_view1.arff 472KB
test_view1.arff 472KB
test_view1.arff 472KB
test_view0.arff 470KB
test_view0.arff 469KB
test_view0.arff 468KB
test_view0.arff 467KB
CT_enlargedTrainingSet_split_0_view_0.arff 252KB
CT_enlargedTrainingSet_split_0_view_0.arff 249KB
CT_enlargedTrainingSet_split_0_view_1.arff 249KB
CT_enlargedTrainingSet_split_0_view_1.arff 249KB
CT_enlargedTrainingSet_split_0_view_1.arff 248KB
CT_enlargedTrainingSet_split_0_view_0.arff 247KB
CT_enlargedTrainingSet_split_0_view_1.arff 247KB
CT_enlargedTrainingSet_split_0_view_0.arff 246KB
CT_enlargedTrainingSet_split_0_view_1.arff 246KB
CT_enlargedTrainingSet_split_0_view_0.arff 246KB
CT_enlargedTrainingSet_split_0_view_0.arff 246KB
CT_enlargedTrainingSet_split_0_view_1.arff 245KB
CT_enlargedTrainingSet_split_0_view_0.arff 245KB
CT_enlargedTrainingSet_split_0_view_0.arff 245KB
CT_enlargedTrainingSet_split_0_view_0.arff 245KB
CT_enlargedTrainingSet_split_0_view_1.arff 245KB
CT_enlargedTrainingSet_split_0_view_1.arff 244KB
共 235 条
- 1
- 2
- 3
资源评论
神仙别闹
- 粉丝: 2704
- 资源: 7645
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功