4
1.2 题目研究的工作基础或实验条件
(1)硬件环境
主机:CPU:Intel(R) Core(TM) i7-8550U CPU @ 1.80GHz 1.99 GHz
内存:8.00GB
操作系统:Windows11 家庭中文版
(2)软件环境
编程软件:Pycharm Community Edition 2021.3.1
编程语言:Python 语言
1.3 数据集描述
数据集是 442 个包含皮马印第安人医学细节的观察对象,文件为 diabetes,
医学细节的描述包括他们的年龄、性别、BMI 和血清化验的九项指数以及一年后
的病情的发展情况,所有的属性都是数值类型的,并且属性之间的单位不一样。
每一个记录有一个类别值表明这个病人在这次测量的五年内是否患糖尿病。
1.4 特征提取过程描述
朴素贝叶斯是一种使用每一个属性属于每一个类别的直觉方法来做出预测。
给定一个属性的值之后的某一个类别的概率叫做条件概率。通过累乘某一个类别
的所有属性的条件概率,就会得到一个数据实例属于某一个类别的概率。为了做
出一个预测,先计算数据属于每一个类别的概率,然后选择最高概率的类别作为
结果。
处理数据从 CSV 中载入数据,并且拆分为训练和测试数据集并汇总数据,
提取这些训练集中的属性,通过高斯分布计算概率,并且做出预测。根据汇总的
数据来生成一个预测,然后针对测试数据做出批量预测,最后评估预测测试数据
集类别的准确率,计算预测类别正确的个数占总数的比例,返回准确率的值,在
另一个代码文件中显示发病人数和几项参数的比例关系并进行图表显示。
1.5 分类过程描述
首先,数据是 csv 格式的,使用 open()函数来打开文件,使用 reader()函数来
读取数据行,将载入时的字符串格式转换到数值格式,loadCsv()函数用来载入皮
马印第安数据集。加载代码如下:
评论0
最新资源