【免费】机器学习相关数据整理，包括鸢尾花、波士顿房价、泰坦尼克号等数据资源-CSDN文库

共36个文件

ipynb：22个

csv：14个

需积分: 0 125 浏览量 2024-03-21 15:59:35 上传评论收藏 11.33MB ZIP 举报

在机器学习领域，数据是驱动模型训练和洞察的关键要素。本资源包含了一些经典的机器学习数据集，如鸢尾花（Iris）、波士顿房价（Boston Housing）和泰坦尼克号（Titanic）。这些数据集在教学和研究中非常常见，它们提供了不同问题背景下的多元数据，有助于初学者理解并实践数据预处理、特征工程和基本的机器学习算法。 1. 鸢尾花数据集（Iris Dataset）：这个数据集由统计学家Ronald Fisher于1936年提出，包含了150个样本，每个样本代表一朵鸢尾花，分为三个类别：Setosa、Versicolour和Virginica。每个样本有4个特征：萼片长度、萼片宽度、花瓣长度和花瓣宽度。这个数据集常用于分类任务，比如使用决策树、K近邻算法或支持向量机进行多类分类。 2. 波士顿房价数据集（Boston Housing Dataset）：这个数据集源自1970年代波士顿郊区的房价，包含506个样本，每个样本有13个特征，如犯罪率、平均房间数、距离波士顿中心的公里数等。目标变量是每座房子的中位数价格。这个数据集常用于回归分析，可以使用线性回归、岭回归、随机森林等方法预测房价。 3. 泰坦尼克号数据集（Titanic Dataset）：这个数据集基于泰坦尼克号沉船事件，记录了乘客的一些信息，如年龄、性别、票价、船舱等级等，以及他们是否幸存。数据集通常被用来演示二元分类问题，例如通过乘客特征预测生存概率，可以使用逻辑回归、朴素贝叶斯或者随机森林等算法。在Python中，你可以使用pandas库来处理这些数据集。导入pandas库，然后使用`pd.read_csv()`函数读取数据。例如，加载泰坦尼克号数据集的代码可能如下： ```python import pandas as pd titanic_data = pd.read_csv('scripts_and_data/titanic.csv') ``` 接着，你可以对数据进行探索性数据分析（EDA），包括查看数据的基本统计信息、缺失值处理、特征与目标变量的关系分析等。此外，还可以进行特征工程，创建新的特征或转换现有特征以提高模型性能。对于机器学习模型的构建，可以使用sklearn库。将数据集分为训练集和测试集，然后选择合适的模型进行训练，并评估模型在测试集上的表现。例如，使用逻辑回归预测泰坦尼克号乘客的生存情况： ```python from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score X = titanic_data.drop('Survived', axis=1) y = titanic_data['Survived'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) model = LogisticRegression() model.fit(X_train, y_train) predictions = model.predict(X_test) accuracy = accuracy_score(y_test, predictions) print(f"模型准确率：{accuracy}") ``` 通过这样的实践，初学者可以逐步掌握数据处理和机器学习的基本流程，为进一步深入学习打下坚实的基础。同时，这些经典数据集也常用于比赛和项目中，帮助检验和优化更复杂的模型。

资源推荐

资源详情

资源评论