基于Django框架搭建学习平台系统，实现KNN、ID3、C4.5、SVM、朴素贝叶斯、BP神经网络等算法及流程管理附代码

共215个文件

css：60个

js：57个

py：22个

版权申诉

Django

朴素贝叶斯

5星 · 超过95%的资源 97 浏览量 2023-02-07 18:49:04 上传评论收藏 2.26MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

基于Django 框架搭建学习平台系统，实现KNN、ID3、C4.5、SVM、朴素贝叶斯、BP神经网络等算法及流程管理附代码（215个子文件）

project.js.bak 7KB

bootstrap.min.css 111KB

ambiance.css 26KB

fullcalendar.css 25KB

bootstrap-theme.min.css 19KB

layer.css 14KB

datetimepicker.css 13KB

codemirror.css 8KB

jquery.slider.min.css 7KB

zTree.css 6KB

rangeSlider.css 6KB

mdn-like.css 5KB

solarized.css 5KB

liquibyte.css 4KB

colorpicker.min.css 4KB

project.css 3KB

xq-dark.css 3KB

jquery.contextmenu.css 3KB

lesser-dark.css 3KB

icecoder.css 2KB

pastel-on-dark.css 2KB

tomorrow-night-eighties.css 2KB

material.css 2KB

ttcn.css 2KB

prism.css 2KB

erlang-dark.css 2KB

xq-light.css 2KB

rangeSlider.skinFlat.css 2KB

midnight.css 2KB

twilight.css 2KB

base16-light.css 2KB

base16-dark.css 2KB

vibrant-ink.css 2KB

mbo.css 2KB

dracula.css 2KB

paraiso-light.css 2KB

paraiso-dark.css 2KB

3024-night.css 2KB

jquery.lightbox-0.5.css 2KB

zenburn.css 2KB

3024-day.css 2KB

seti.css 2KB

abcdef.css 2KB

blackboard.css 2KB

the-matrix.css 2KB

monokai.css 2KB

yeti.css 2KB

rubyblue.css 2KB

tomorrow-night-bright.css 2KB

night.css 2KB

cobalt.css 2KB

colorforth.css 2KB

default.css 1KB

eclipse.css 1KB

neo.css 947B

elegant.css 781B

neat.css 688B

common.css 501B

jquery.gridly.css 262B

bootstrap-treeview.min.css 204B

ambiance-mobile.css 103B

datingTestSet.csv 33KB

datingTestSet2.csv 25KB

diabetes.csv 23KB

testSet.csv 1KB

testSet2.csv 1KB

clusters.csv 668B

points.csv 636B

djangorestframe.db 140KB

glyphicons-halflings-regular.eot 20KB

loading-0.gif 6KB

metro.gif 5KB

lightbox-ico-loading.gif 4KB

loading-2.gif 2KB

lightbox-btn-prev.gif 832B

lightbox-btn-next.gif 812B

loading-1.gif 701B

lightbox-btn-close.gif 700B

loading.gif 381B

lightbox-blank.gif 43B

.gitattributes 159B

project.html 29KB

bayes.html 9KB

kmeans_visual.html 4KB

normal.html 287B

result2.jpg 227KB

result1.jpg 215KB

bayes.jpg 24KB

plotly.min.js 1.09MB

codemirror.js 343KB

fullcalendar.js 306KB

jquery-3.3.1.js 265KB

jquery-ui.min.js 232KB

jsPlumb-2.2.8-min.js 193KB

zrender.min.js 101KB

jquery.min.js 94KB

jquery.cxselect.min.js 91KB

jquery.datetimepicker.min.js 90KB

jquery-3.3.1.min.js 85KB

backbone.js 71KB

共 215 条

# python 机器学习之 K-邻近算法 @简单的理解：[ 采用测量不同特征值之间的距离方法进行分类 ] - **优点** ：精度高、对异常值不敏感、无数据输入假定 - **缺点** ：计算复杂度高，空间复杂度高； - **适应数据范围** ：数值型、标称型； --- ## kNN 简介 > **kNN 原理** ：存在一个样本数据集合，也称作训练集或者样本集，并且样本集中每个数据都存在标签，即样本集实际上是 **每条数据** 与 **所属分类** 的 **对应关系**。 > **核心思想** ：若输入的数据没有标签，则新数据的每个特征与样本集中数据对应的特征进行比较，该算法提取样本集中特征最相似数据（最近邻）的分类标签。 > **k** ：选自最相似的 k 个数据，通常是不大于 20 的整数，最后选择这 k 个数据中出现次数最多的分类，作为新数据的分类。 ### k-近邻算法的一般流程 ``` 1.收集数据：可以使用任何方法, 2.准备数据：距离计算所需的数值,最好是结构化的数据格式。 3.分析数据：可以使用任何方法。 4.训练算法：此不走不适用于k-近邻算法。 5.测试算法：计算错误率。 6.使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据分别属于哪个分类，最后应用对计算出的分类之行后续的处理。 ``` ### example1 #### python 导入数据 ```python from numpy import * import operator def createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A','A','B','B'] return group,labels ``` #### python 处理数据 ```python # 计算已知类别数据集中的点与当前点之间的距离（欧式距离） # 按照距离递增次序排序 # 选取与当前点距离最小的K个点 # 确定前K个点所在类别的出现频率 # 返回前k个点出现频率最高的类别最为当前点的预测分类 # inX输入向量，训练集dataSet,标签向量labels，k表示用于选择最近邻的数目 def clissfy0(inX,dataSet,labels,k): dataSetSize = dataSet.shape[0] diffMat = tile(inX,(dataSetSize,1)) - dataSet sqDiffMat = diffMat ** 0.5 sqDistances = sqDiffMat.sum(axis=1) distances = sqDistances ** 0.5 sortedDistIndicies = distances.argsort() classCount = {} for i in range(k): voteLabel = labels[sortedDistIndicies[i]] classCount[voteLabel] = classCount.get(voteLabel,0) + 1 sortedClassCount = sorted(classCount.iteritems(), key = operator.itemgetter(1),reverse = True) return sortedClassCount[0][0] ``` #### python 数据测试 ```python import kNN from numpy import * dataSet,labels = createDataSet() testX = array([1.2,1.1]) k = 3 outputLabelX = classify0(testX,dataSet,labels,k) testY = array([0.1,0.3]) outputLabelY = classify0(testY,dataSet,labels,k) print('input is :',testX,'output class is :',outputLabelX) print('input is :',testY,'output class is :',outputLabelY) ``` #### python 结果输出 ``` ('input is :', array([ 1.2, 1.1]), 'output class is :', 'A') ('input is :', array([ 0.1, 0.3]), 'output class is :', 'B') ``` ### example2 使用 k-近邻算法改进约会网站的配对效果 #### 处理步骤 ``` 1.收集数据：提供文本文件 2.准备数据：使用python解析文本文件 3.分析数据:使用matplotlib画二维扩散图 4.训练算法：此步骤不适用与k－近邻算法 5.测试算法：使用提供的部份数据作为测试样本 6:使用算法：输入一些特征数据以判断对方是否为自己喜欢的类型 ``` #### python 整体实现 ```python # coding:utf-8 from numpy import * import operator from kNN import classify0 import matplotlib.pyplot as plt def file2matrmix(filename): fr = open(filename) arrayLines = fr.readlines() numberOfLines = len(arrayLines) returnMat = zeros((numberOfLines,3)) classLabelVector = [] index = 0 for line in arrayLines: line = line.strip() listFromLine = line.split('\t') returnMat[index,:] = listFromLine[0:3] classLabelVector.append(int(listFromLine[-1])) index +=1 return returnMat,classLabelVector def autoNorm(dataSet): minVals = dataSet.min(0) maxVals = dataSet.max(0) ranges = maxVals - minVals normDataSet = zeros(shape(dataSet)) m = dataSet.shape[0] normDataSet = dataSet - tile(minVals,(m,1)) normDataSet = normDataSet/tile(ranges,(m,1)) return normDataSet,ranges,minVals def datingClassTest(): hoRatio = 0.10 datingDataMat,datingLabels = file2matrmix('datingTestSet2.txt') normMat,ranges,minVals = autoNorm(datingDataMat) m = normMat.shape[0] numTestVecs = int(m * hoRatio) errorCount = 0.0 for i in range(numTestVecs): classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3) print('the classifier came back with: %d, the real answer is: %d' %(classifierResult,datingLabels[i])) if (classifierResult != datingLabels[i]): errorCount += 1.0 print('the total error rate is: %f' %(errorCount / float(numTestVecs))) def classifyPerson(): resultList = ['not at all','in small doses','in large doses'] percentTats = float(raw_input('percentage of time spent playing video games?')) ffMiles = float(raw_input('frequent flier miles earned per year?')) iceCream = float(raw_input('liters of ice cream consumed per year?')) datingDataMat,datingLabels = file2matrmix('datingTestSet2.txt') normMat,ranges,minVals =autoNorm(datingDataMat) inArr = array([ffMiles,percentTats,iceCream]) classifierResult = classify0((inArr - minVals) / ranges,normMat,datingLabels,3) print('you will probably like this person:',resultList[classifierResult - 1]) datingDataMat,datingLabels = file2matrmix('datingTestSet2.txt') classifyPerson() fig = plt.figure() ax = fig.add_subplot(111) ax.scatter(datingDataMat[:,1],datingDataMat[:,2],15.0 * array(datingLabels),15.0 * array(datingLabels)) plt.show() ``` ### K-最近邻算法总结 > **k 近邻算法**是最简单有效的分类算法，必须全部保存全部数据集，如果训练数据集很大，必须使用大量的存储空间，同时由于必须对数据集中的每个数据计算距离值，实际使用可能非常耗时。 > **k 近邻算法**无法给出任何数据的基础结构信息，我们无法知晓平均实例样本和典型实例样本具有神秘特征。 # 决策树 > **决策树** 流程图正方形代表判断模块，椭圆形代表终止模块，从判断模块引出的左右箭头称作分支，它可以到达另一个判断模块活着终止模块。 > **决策树 [优点]**:计算复杂度不高，输出结果易于理解，对于中间值的缺失不敏感，可以处理不相关特征数据。 > **决策树[缺点]**:可能会产生过度匹配的问题。 > **决策树[适用数据类型]**：数值型和标称型。 --- ### 决策树的一般流程 ``` (1)收集数据：可以使用任何方法。 (2)准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化。 (3)分析数据：可以使用任何方法，构造树完成之后，我们需要检验图形是否符合预期。 (4)训练算法：构造树的数据结构。 (5)测试算法：使用经验树计算错误率。 (6)使用算法：使用于任何监督学习算法。 ``` ### 信息增益 > **划分数据集的最大原则**:将无序的数据集变的有序。 > **判断数据集的有序程度**:信息增益（熵），计算每个特征值划分数据集后获得的信息增益，获得信息增益最高的特征就是最好的选择。 > **信息增益[公式]**: > $$ > H = - \sum_{i=1}^np(x_i)log_2p(x_i) > $$ > > **<font size=2> 其中 n 是分类的数目。</font>** ### python 决策树 #### 计算给定数据集的信息熵 ```python from math import log def calcShannonEnt(dataSet): numEntries = len(dataSet)

评论收藏

内容反馈

版权申诉