机器学习入门数据集之鸢尾花数据集
鸢尾花数据集是一个多重变量分析的数据集,其中包含150个数据集,分为3类,每类50个数据。每个数据包含花萼长度、花萼宽度、花瓣长度、花瓣宽度4个属性。 利用这些属性特征可以预测某个鸢尾花属于Setosa、Versicolour、Virginica三个种类中的哪一类。
鸢尾花数据集是一个多重变量分析的数据集,其中包含150个数据集,分为3类,每类50个数据。每个数据包含花萼长度、花萼宽度、花瓣长度、花瓣宽度4个属性。 利用这些属性特征可以预测某个鸢尾花属于Setosa、Versicolour、Virginica三个种类中的哪一类。
数据标准化(Normalization)是指:将数据按照一定的比例进行缩放,使其落入一个特定的小区间。 为什么要进行数据标准化呢? 去除数据的单位限制,将其转化为无量纲的纯数值,便于不同量级、不同单位或不同范围的数据转化为统一的标准数值,以便进行比较分析和加权。 通过手写Python代码对海伦约会对象数据集完成数据标准化归一化的预处理。 其中包含: (1)Min-Max标准化 (2)Z-Score标准化 (3)小数定标标准化 (4)均值归一化法 (5)向量归一化 (6)指数转换
海伦约会对象数据;海伦在相亲网站找约会对象,经过一段时间之后,她发现曾交往过三种类型的人: 不喜欢的人 魅力一般的人 极具魅力的人 并且她希望: 工作日跟魅力一般的人约会 周末与极具魅力的人约会 排除不喜欢的人 现在,她收集到了一些约会网站未曾记录的数据信息,这更有助于匹配对象的归类。