在机器学习领域,数据是驱动模型训练和洞察的关键要素。本资源包含了一些经典的机器学习数据集,如鸢尾花(Iris)、波士顿房价(Boston Housing)和泰坦尼克号(Titanic)。这些数据集在教学和研究中非常常见,它们提供了不同问题背景下的多元数据,有助于初学者理解并实践数据预处理、特征工程和基本的机器学习算法。
1. 鸢尾花数据集(Iris Dataset):
这个数据集由统计学家Ronald Fisher于1936年提出,包含了150个样本,每个样本代表一朵鸢尾花,分为三个类别:Setosa、Versicolour和Virginica。每个样本有4个特征:萼片长度、萼片宽度、花瓣长度和花瓣宽度。这个数据集常用于分类任务,比如使用决策树、K近邻算法或支持向量机进行多类分类。
2. 波士顿房价数据集(Boston Housing Dataset):
这个数据集源自1970年代波士顿郊区的房价,包含506个样本,每个样本有13个特征,如犯罪率、平均房间数、距离波士顿中心的公里数等。目标变量是每座房子的中位数价格。这个数据集常用于回归分析,可以使用线性回归、岭回归、随机森林等方法预测房价。
3. 泰坦尼克号数据集(Titanic Dataset):
这个数据集基于泰坦尼克号沉船事件,记录了乘客的一些信息,如年龄、性别、票价、船舱等级等,以及他们是否幸存。数据集通常被用来演示二元分类问题,例如通过乘客特征预测生存概率,可以使用逻辑回归、朴素贝叶斯或者随机森林等算法。
在Python中,你可以使用pandas库来处理这些数据集。导入pandas库,然后使用`pd.read_csv()`函数读取数据。例如,加载泰坦尼克号数据集的代码可能如下:
```python
import pandas as pd
titanic_data = pd.read_csv('scripts_and_data/titanic.csv')
```
接着,你可以对数据进行探索性数据分析(EDA),包括查看数据的基本统计信息、缺失值处理、特征与目标变量的关系分析等。此外,还可以进行特征工程,创建新的特征或转换现有特征以提高模型性能。
对于机器学习模型的构建,可以使用sklearn库。将数据集分为训练集和测试集,然后选择合适的模型进行训练,并评估模型在测试集上的表现。例如,使用逻辑回归预测泰坦尼克号乘客的生存情况:
```python
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
X = titanic_data.drop('Survived', axis=1)
y = titanic_data['Survived']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = LogisticRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
print(f"模型准确率:{accuracy}")
```
通过这样的实践,初学者可以逐步掌握数据处理和机器学习的基本流程,为进一步深入学习打下坚实的基础。同时,这些经典数据集也常用于比赛和项目中,帮助检验和优化更复杂的模型。