鸢尾花数据集(Iris dataset)是机器学习和统计学中常用的经典数据集之一,被广泛用于模型验证、分类和聚类等任务。这个数据集由英国统计学家和生物学家Ronald A. Fisher于1936年引入,用来展示他所开发的线性判别分析方法。鸢尾花数据集包含了三个品种(类别)的鸢尾花的测量数据。
数据集的特征包括鸢尾花的萼片(sepal)长度、萼片宽度、花瓣(petal)长度和花瓣宽度,所有的测量单位都以厘米为单位。对于每个品种,数据集包含了50个样本,因此总共有150个样本。三个品种分别是:
山鸢尾(Setosa)
变色鸢尾(Versicolor)
维吉尼亚鸢尾(Virginica)
数据集中的每个样本都被标记为这三个品种中的一个,使其成为一个有监督学习问题。
鸢尾花数据集是一个简单且易于理解的数据集,被用来展示和测试分类算法的性能。由于其小规模、多样性和良好的可分性,鸢尾花数据集经常被用作新算法和方法的测试基准。在许多机器学习框架和库中,都内置了鸢尾花数据集,使得它成为入门级学习和教学的理想数据集。