kNN.zip_kNN.PY_knn资源-CSDN文库

共1个文件

py：1个

版权申诉

82 浏览量 2022-09-23 18:17:19 上传评论收藏 2KB ZIP 举报

kNN，全称为K最近邻（K-Nearest Neighbors），是一种简单且强大的非参数机器学习算法，常用于分类和回归任务。在这个“kNN.zip”压缩包中，包含了一个名为“kNN.py”的Python脚本，这可能是为了演示如何在Python环境中实现kNN算法。以下是对kNN算法的详细介绍，以及可能在“kNN.py”中涉及的关键概念和技术。 1. **kNN算法原理**：kNN算法基于实例学习，即通过寻找数据集中与新样本最接近的k个训练样本，依据这k个邻居的类别进行投票来决定新样本的类别。这里的k通常为一个较小的整数，用于平衡准确性和计算复杂性。 2. **距离度量**：在kNN中，计算样本之间的相似性通常使用欧氏距离、曼哈顿距离或余弦相似度等。"kNN.py"可能包含了这些距离函数的实现，以计算训练样本和测试样本之间的相似度。 3. **类别决策规则**：最常见的决策规则是多数投票，即选择k个最近邻中出现次数最多的类别作为预测结果。有时也会使用加权投票，距离更近的邻居权重更大。 4. **特征缩放**：在kNN中，特征尺度的不同可能会导致距离度量的失衡，因此在预处理阶段通常需要对特征进行标准化或归一化，确保所有特征在同一尺度上。 5. **数据集划分**：在实际应用中，数据会被划分为训练集和测试集。训练集用于构建模型，而测试集用于评估模型的性能。 6. **网格搜索**："kNN.py"可能包含了参数调优的过程，例如通过网格搜索法（Grid Search）来寻找最优的k值，以提高模型的泛化能力。 7. **k值的选择**：k值的选择直接影响到模型的性能，k太小容易受噪声影响，k太大则模型变得过于复杂，可能过拟合。一般通过交叉验证来确定最佳k值。 8. **存储与查询效率**：大规模数据集下，kNN算法的效率是个挑战。可能会用到kd树、球树等数据结构来加速邻近搜索。 9. **异常值处理**：kNN对异常值敏感，因为它们可能显著影响距离计算。在"kNN.py"中，可能包含了异常值检测和处理的策略。 10. **Python实现库**：在Python中，实现kNN算法可以使用sklearn库中的`KNeighborsClassifier`或`KNeighborsRegressor`类。这些类提供了内置的kNN实现，包括训练、预测和参数调整等功能。通过阅读和理解"kNN.py"，你可以学习到如何从头开始实现kNN算法，或者对比sklearn库中的实现方式，加深对算法的理解。记得在实际使用时，根据具体问题调整和优化模型，以获得更好的预测效果。

资源推荐

资源详情

资源评论

收起资源包目录

kNN.zip （1个子文件）

kNN.py 4KB

''' Created on Sep 16, 2010 kNN: k Nearest Neighbors Input: inX: vector to compare to existing dataset (1xN) dataSet: size m data set of known vectors (NxM) labels: data set labels (1xM vector) k: number of neighbors to use for comparison (should be an odd number) Output: the most popular class label @author: pbharrin ''' from numpy import * import operator from os import listdir def classify0(inX, dataSet, labels, k): dataSetSize = dataSet.shape[0] diffMat = tile(inX, (dataSetSize,1)) - dataSet sqDiffMat = diffMat**2 sqDistances = sqDiffMat.sum(axis=1) distances = sqDistances**0.5 sortedDistIndicies = distances.argsort() classCount={} for i in range(k): voteIlabel = labels[sortedDistIndicies[i]] classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) return sortedClassCount[0][0] def createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A','A','B','B'] return group, labels def file2matrix(filename): fr = open(filename) numberOfLines = len(fr.readlines()) #get the number of lines in the file returnMat = zeros((numberOfLines,3)) #prepare matrix to return classLabelVector = [] #prepare labels return fr = open(filename) index = 0 for line in fr.readlines(): line = line.strip() listFromLine = line.split('\t') returnMat[index,:] = listFromLine[0:3] classLabelVector.append(int(listFromLine[-1])) index += 1 return returnMat,classLabelVector def autoNorm(dataSet): minVals = dataSet.min(0) maxVals = dataSet.max(0) ranges = maxVals - minVals normDataSet = zeros(shape(dataSet)) m = dataSet.shape[0] normDataSet = dataSet - tile(minVals, (m,1)) normDataSet = normDataSet/tile(ranges, (m,1)) #element wise divide return normDataSet, ranges, minVals def datingClassTest(): hoRatio = 0.50 #hold out 10% datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') #load data setfrom file normMat, ranges, minVals = autoNorm(datingDataMat) m = normMat.shape[0] numTestVecs = int(m*hoRatio) errorCount = 0.0 for i in range(numTestVecs): classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3) print( "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])) if (classifierResult != datingLabels[i]): errorCount += 1.0 print( "the total error rate is: %f" % (errorCount/float(numTestVecs))) print(errorCount) def img2vector(filename): returnVect = zeros((1,1024)) fr = open(filename) for i in range(32): lineStr = fr.readline() for j in range(32): returnVect[0,32*i+j] = int(lineStr[j]) return returnVect def handwritingClassTest(): hwLabels = [] trainingFileList = listdir('trainingDigits') #load the training set m = len(trainingFileList) trainingMat = zeros((m,1024)) for i in range(m): fileNameStr = trainingFileList[i] fileStr = fileNameStr.split('.')[0] #take off .txt classNumStr = int(fileStr.split('_')[0]) hwLabels.append(classNumStr) trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr) testFileList = listdir('testDigits') #iterate through the test set errorCount = 0.0 mTest = len(testFileList) for i in range(mTest): fileNameStr = testFileList[i] fileStr = fileNameStr.split('.')[0] #take off .txt classNumStr = int(fileStr.split('_')[0]) vectorUnderTest = img2vector('testDigits/%s' % fileNameStr) classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3) print( "the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr)) if (classifierResult != classNumStr): errorCount += 1.0 print ("\nthe total number of errors is: %d" % errorCount) print ("\nthe total error rate is: %f" % (errorCount/float(mTest)))

评论收藏

内容反馈

版权申诉