半监督学习
1.
模型的一些通用方法:
get_params([deep]) :返回模型的参数。
deep :
如果为 True ,则可以返回模型参数的子对象。
set_params(**params) :设置模型的参数。
params :待设置的关键字参数。
fit(X,y) :训练模型。
X
:训练集样本集合。通常是一个 numpy array ,每行代表一个样本,每列代表一个特征。
y
:训练样本的标签集合。它与 X
的每一行相对应。其中未标记样本的标记为
-1
。
predict(x) :
利用模型执行预测。返回一个预测结果序列。
X :测试集样本集合。通常是一个 numpy array ,每行代表一个样本,每列代表一个特征。
predict_proba(x) :
利用模型执行预测。返回每个样本在每个类别上的概率分布。
X :测试集样本集合。通常是一个 numpy array ,每行代表一个样本,每列代表一个特征。
score(X,y[,sample_weight]) :对模型进行评估,返回模型的准确率评估结果。
X :验证集样本集合。通常是一个 numpy array ,每行代表一个样本,每列代表一个特征。
y :验证集样本的标签集合。它与 X
的每一行相对应。
sample_weight :
每个样本的权重。它与 X
的每一行相对应。
2.
模型的一些通用参数:
n_jobs :一个正数,指定任务并形时指定的
CPU 数量。
如果为
-1
则使用所有可用的
CPU 。
max_iter
:一个整数,指定最大迭代次数。
如果为 None 则为默认值(不同 solver 的默认值不同)。
tol :一个浮点数,指定了算法收敛的阈值。
一、标签传播算法
1.
scikit-learn
有两个类实现了标签传播算法:
LabelPropagation :迭代过程:
执行标签传播:
。
重置
中的标签样本标记:
,其中
表示
的前
行。
LabelSpreading :
迭代过程:
1.1 LabelPropagation
1.
LabelPropagation 是
scikit-learn 提供的
LabelPropagation 算法模型,其原型为: