svmMLiA.zip_fuzzymachine_fuzzysvm_svmpython

共1个文件

py：1个

版权申诉

160 浏览量 2022-09-23 17:30:43 上传评论收藏 4KB ZIP 举报

支持向量机（Support Vector Machine, SVM）是一种广泛应用于分类和回归分析的机器学习算法，以其优秀的泛化能力和处理小样本数据的能力而受到关注。在SVM的基础上，研究者们提出了许多改进策略以应对实际问题中的挑战。"svmMLiA.zip"文件包含了关于模糊支持向量机（Fuzzy Support Vector Machine, FSVM）以及SVM在Python中的实现和改进方法的相关内容，主要文件是"svmMLiA.py"。 FSVM是SVM的一种扩展，它引入了模糊逻辑的概念，使得模型能够处理不确定性数据。在传统的SVM中，数据点被明确地划分到某一类别，而在FSVM中，数据点可以同时属于多个类别，具有模糊边界，这在处理模糊或不确定的数据时特别有用。模糊逻辑允许我们用连续的隶属度函数来描述数据对各个类别的归属程度，增强了模型的表达能力。 1. **模糊理论基础**：模糊集合论是FSVM的基础，它将经典集合论中的“非此即彼”扩展为“亦此亦彼”，通过隶属度函数描述元素与集合之间的关系。在FSVM中，样本点不再简单地被分类为正类或负类，而是根据其与决策边界的距离，拥有不同的隶属度。 2. **构建模糊核函数**：SVM的核心在于选择合适的核函数，它将低维空间中的线性不可分问题转换为高维空间的线性可分问题。在FSVM中，我们需要设计能反映模糊性的核函数，如模糊高斯核、模糊多项式核等，这些核函数能更好地捕捉数据的模糊特性。 3. **优化求解**：FSVM的优化目标函数与传统SVM类似，但包含模糊系数，求解过程更为复杂。通常采用梯度下降法、序列最小最优化（Sequential Minimal Optimization, SMO）等优化算法进行求解。 4. **Python实现**："svmMLiA.py"可能是用Python实现的SVM和FSVM代码，可能包含了导入相关库（如Scikit-Learn、NumPy、Pandas等），数据预处理，模型训练，模糊核函数定义，优化算法实现，以及模型评估等内容。Python因其丰富的科学计算库和易读性，成为数据科学和机器学习领域首选的编程语言。 5. **SVM改进**：文件可能涉及到各种SVM的改进策略，如使用不同的核函数、惩罚参数调整、软间隔最大化、多核SVM、在线SVM等。这些改进旨在提高模型的性能，适应不同类型的数据集。 6. **应用示例**：文件可能包含了具体的案例，如使用FSVM解决分类问题，比较其与传统SVM的效果，或者展示如何利用FSVM处理具有模糊特性的实际问题。 "svmMLiA.zip"中的内容提供了关于SVM及其模糊版本FSVM的理论知识和Python实现，对于理解和应用这类算法非常有帮助。通过学习和实践这些材料，开发者可以提升处理模糊数据和优化模型性能的能力。

资源详情

资源评论

资源推荐

收起资源包目录

svmMLiA.zip （1个子文件）

svmMLiA.py 18KB

#!/usr/bin/env python #coding=UTF8 ''' Created on Dec 11, 2015 Chapter 6 source file for Machine Learing in Action HomeWork 4. @author: Chen Yiqi ''' from numpy import * from time import sleep ''' 获得S序列, from fuzzy ''' def createS(times): f = 1 #选择不同fuzzy Membership的可调节参数 S = [] theta = float(1/times) #作为初始值，是最小的概率 if f == 0: for ti in range(times): si = 1 S.append(si) if f == 1: b = theta a = (1-b)/times for ti in range(times): si = a * ti + b S.append(float(si)) if f == 2: for ti in range(times): si = float((1-theta)*ti/times + (times*theta - theta)/times) S.append(si) #其它的方法就不做了 return S ''' 打开文件，逐行解析，获得类标签和整个数据矩阵 ''' def loadDataSet(fileName): dataMat = []; labelMat = [] fr = open(fileName) for line in fr.readlines(): lineArr = line.strip().split('\t') dataMat.append([float(lineArr[0]), float(lineArr[1])]) labelMat.append(float(lineArr[2])) return dataMat,labelMat ''' 随机选择下标为 m的 alpha,此时下标不等于 i ''' def selectJrand(i,m): j=i #we want to select any J not equal to i while (j==i): j = int(random.uniform(0,m)) return j ''' 用于调整大于H或小于L的 alpha值 ''' def clipAlpha(aj,H,L): if aj > H: aj = H if L > aj: aj = L return aj ''' 简化版SMO算法 ''' def smoSimple(dataMatIn, classLabels, C, toler, maxIter): dataMatrix = mat(dataMatIn); labelMat = mat(classLabels).transpose() b = 0; m,n = shape(dataMatrix) alphas = mat(zeros((m,1))) iter = 0 while (iter < maxIter): alphaPairsChanged = 0 for i in range(m): fXi = float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[i,:].T)) + b Ei = fXi - float(labelMat[i])#if checks if an example violates KKT conditions if ((labelMat[i]*Ei < -toler) and (alphas[i] < C)) or ((labelMat[i]*Ei > toler) and (alphas[i] > 0)): j = selectJrand(i,m) fXj = float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[j,:].T)) + b Ej = fXj - float(labelMat[j]) alphaIold = alphas[i].copy(); alphaJold = alphas[j].copy(); if (labelMat[i] != labelMat[j]): L = max(0, alphas[j] - alphas[i]) H = min(C, C + alphas[j] - alphas[i]) else: L = max(0, alphas[j] + alphas[i] - C) H = min(C, alphas[j] + alphas[i]) if L==H: print "L==H"; continue eta = 2.0 * dataMatrix[i,:]*dataMatrix[j,:].T - dataMatrix[i,:]*dataMatrix[i,:].T - dataMatrix[j,:]*dataMatrix[j,:].T if eta >= 0: print "eta>=0"; continue alphas[j] -= labelMat[j]*(Ei - Ej)/eta alphas[j] = clipAlpha(alphas[j],H,L) if (abs(alphas[j] - alphaJold) < 0.00001): print "j not moving enough"; continue alphas[i] += labelMat[j]*labelMat[i]*(alphaJold - alphas[j])#update i by the same amount as j #the update is in the oppostie direction b1 = b - Ei- labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i,:]*dataMatrix[i,:].T - labelMat[j]*(alphas[j]-alphaJold)*dataMatrix[i,:]*dataMatrix[j,:].T b2 = b - Ej- labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i,:]*dataMatrix[j,:].T - labelMat[j]*(alphas[j]-alphaJold)*dataMatrix[j,:]*dataMatrix[j,:].T if (0 < alphas[i]) and (C > alphas[i]): b = b1 elif (0 < alphas[j]) and (C > alphas[j]): b = b2 else: b = (b1 + b2)/2.0 alphaPairsChanged += 1 print "iter: %d i:%d, pairs changed %d" % (iter,i,alphaPairsChanged) if (alphaPairsChanged == 0): iter += 1 else: iter = 0 print "iteration number: %d" % iter return b,alphas def kernelTrans(X, A, kTup): #calc the kernel or transform data to a higher dimensional space m,n = shape(X) K = mat(zeros((m,1))) if kTup[0]=='lin': K = X * A.T #linear kernel elif kTup[0]=='rbf': for j in range(m): deltaRow = X[j,:] - A K[j] = deltaRow*deltaRow.T K = exp(K/(-1*kTup[1]**2)) #divide in NumPy is element-wise not matrix like Matlab elif kTup[0] == 'dxs': K = X * A.T for j in range(m): K[j,0] = K[j,0] + 1 K[j,0] = K[j,0]**kTup[1] elif kTup[0] == 'sig': K = X * A.T for j in range(m): K[j,0] = K[j,0] * kTup[1] + kTup[2] K = tanh(K) else: raise NameError('Houston We Have a Problem -- \ That Kernel is not recognized') return K class optStruct: def __init__(self,dataMatIn, classLabels, C, toler, kTup): # Initialize the structure with the parameters self.X = dataMatIn self.labelMat = classLabels self.C = C self.tol = toler self.m = shape(dataMatIn)[0] self.alphas = mat(zeros((self.m,1))) self.b = 0 self.eCache = mat(zeros((self.m,2))) #first column is valid flag self.K = mat(zeros((self.m,self.m))) for i in range(self.m): self.K[:,i] = kernelTrans(self.X, self.X[i,:], kTup) ''' 计算E值 ''' def calcEk(oS, k): fXk = float(multiply(oS.alphas,oS.labelMat).T*oS.K[:,k] + oS.b) Ek = fXk - float(oS.labelMat[k]) return Ek ''' 选择第二个 alpha ''' def selectJ(i, oS, Ei): #this is the second choice -heurstic, and calcs Ej maxK = -1; maxDeltaE = 0; Ej = 0 oS.eCache[i] = [1,Ei] #set valid #choose the alpha that gives the maximum delta E validEcacheList = nonzero(oS.eCache[:,0].A)[0] if (len(validEcacheList)) > 1: for k in validEcacheList: #loop through valid Ecache values and find the one that maximizes delta E if k == i: continue #don't calc for i, waste of time Ek = calcEk(oS, k) deltaE = abs(Ei - Ek) if (deltaE > maxDeltaE): maxK = k; maxDeltaE = deltaE; Ej = Ek return maxK, Ej else: #in this case (first time around) we don't have any valid eCache values j = selectJrand(i, oS.m) Ej = calcEk(oS, j) return j, Ej ''' 计算误差值，并存入缓存中 ''' def updateEk(oS, k):#after any alpha has changed update the new value in the cache Ek = calcEk(oS, k) oS.eCache[k] = [1,Ek] ''' 用于寻找决策边界的优化历程，参见smoSimple() ''' def innerL(i, oS, S): Ei = calcEk(oS, i) if ((oS.labelMat[i]*Ei < -oS.tol) and (oS.alphas[i] < oS.C*S[i])) or ((oS.labelMat[i]*Ei > oS.tol) and (oS.alphas[i] > 0)): j,Ej = selectJ(i, oS, Ei) #this has been changed from selectJrand alphaIold = oS.alphas[i].copy(); alphaJold = oS.alphas[j].copy(); if (oS.labelMat[i] != oS.labelMat[j]): L = max(0, oS.alphas[j] - oS.alphas[i]) H = min(oS.C*S[i], oS.C*S[i] + oS.alphas[j] - oS.alphas[i]) else: L = max(0, oS.alphas[j] + oS.alphas[i] - oS.C*S[i]) H = min(oS.C*S[i], oS.alphas[j] + oS.alphas[i]) if L==H: print "L==H"; return 0 eta = 2.0 * oS.K[i,j] - oS.K[i,i] - oS.K[j,j] #changed for kernel if eta >= 0: print "eta>=0"; return 0 oS.alphas[j] -= oS.labelMat[j]*(Ei - Ej)/eta oS.alphas[j] = clipAlpha(oS.alphas[j],H,L) updateEk(oS, j) #added this for the Ecache if (abs(oS.alphas[j] - alphaJold) < 0.00001): print "j not mo