项目五 聚类分析
一、实践目的
1、熟悉模型性能评估的方法;
2、熟悉并掌握 k-means 算法进行聚类分析的方法;
3、理解聚类分析算法并能使用 k-means 算法分析数据集。
二、实践平台
1、操作系统:Windows7 及以上
2、Python 版本:3.8.x 及以上
3、PyCharm 或 Anoconda 集成环境
三、实践内容
任务一:蛋白质消费结构分析
数据集文件名为“protein.txt” ,主要记录了 25 个国家的 9 个属性,主要属
性如下:
1. ID:国家的 ID;
2. Country(国家类别):该数据集涉及 25 个欧洲国家肉类和其他食品之间的
关系;
3. 关于肉类和其他食品的 9 个数据包括 RedMeat(红肉),WhiteMeat(白肉),
Eggs(蛋类),Milk(牛奶),Fish(鱼类),Cereals(谷类),Starch(淀
粉类),Nuts(坚果类),Fr&Veg(水果和蔬菜)。
本项目实践所涉及的业务为不同国家蛋白质消费结构分析,主要从数据集中
选取不同国家蛋白质食品的消费数据,在此基础上通过 k-means 算法模型对其
进行迭代求解的聚类分析,最后评价聚类效果的优度。
(一)数据读入
1. 导入本案例所需的 Python 包;
2. 使用 pandas 包中的 read_table()方法将数据读入并存为 DataFrame 格式,查
看前 5 行数据。
(二)数据理解