没有合适的资源?快使用搜索试试~ 我知道了~
23 个优秀的机器学习训练公共数据集
需积分: 0 5 下载量 153 浏览量
2023-05-24
11:43:40
上传
评论 1
收藏 6.58MB PDF 举报
温馨提示
试读
28页
Iris 数据集的那些示例你是不是已经用腻了呢?不要误会我的意思,Iris 数据集作为入门用途来说是很不错的,但其实网络上还有很多有趣的公共数据集可以用来练习机器学习和深度学习。在这篇文章中,我会分享 23 个优秀的公共数据集,除了介绍数据集和数据示例外,我还会介绍这些数据集各自可以解决哪些问题。 以下是这 23 个公共数据集: 帕尔默企鹅数据集 共享单车需求数据集 葡萄酒分类数据集 波士顿住房数据集 电离层数据集 Fashion MNIST 数据集 猫与狗数据集 威斯康星州乳腺癌(诊断)数据集 Twitter 情绪分析和 Sentiment140 数据集 BBC 新闻数据集 垃圾短信分类器数据集 CelebA 数据集 YouTube-8M 数据集 亚马逊评论数据集 纸币验证数据集 LabelMe 数据集 声纳数据集 皮马印第安人糖尿病数据集 小麦种子数据集 Jeopardy!数据集 鲍鱼数据集 假新闻检测数据集 ImageNet 数据集
资源推荐
资源详情
资源评论
Iris 数据集的那些示例你是不是已经用腻了呢?不要误会我的意思,Iris 数据集作为入门用途来说
是很不错的,但其实网络上还有很多有趣的公共数据集可以用来练习机器学习和深度学习。在这篇
文章中,我会分享 23 个优秀的公共数据集,除了介绍数据集和数据示例外,我还会介绍这些数据
集各自可以解决哪些问题。
以下是这 23 个公共数据集:
1.帕尔默企鹅数据集
帕尔默企鹅数据集
共享单车需求数据集
葡萄酒分类数据集
波士顿住房数据集
电离层数据集
Fashion MNIST 数据集
猫与狗数据集
威斯康星州乳腺癌(诊断)数据集
Twitter 情绪分析和 Sentiment140 数据集
BBC 新闻数据集
垃圾短信分类器数据集
CelebA 数据集
YouTube-8M 数据集
亚马逊评论数据集
纸币验证数据集
LabelMe 数据集
声纳数据集
皮马印第安人糖尿病数据集
小麦种子数据集
Jeopardy!数据集
鲍鱼数据集
假新闻检测数据集
ImageNet 数据集
这是迄今为止我最喜欢的数据集。我在最近写的书里的大多数示例都来自于它。简单来说,如果你
在 Iris 数据集上做实验做腻了就可以尝试一下这一个。它由 Kristen Gorman 博士和南极洲 LTER
的帕尔默科考站共同创建。该数据集本质上是由两个数据集组成的,每个数据集包含 344 只企鹅的
数据。
就像 Iris 一样,这个数据集里有来自帕尔默群岛 3 个岛屿的 3 种不同种类的企鹅,分别是 Adeli
e、Chinstrap 和 Gentoo。或许“Gentoo”听起来很耳熟,那是因为 Gentoo Linux 就是以它命名
的!此外,这些数据集包含每个物种的 culmen 维度。这里 culmen 是鸟喙的上脊。在简化的企鹅
数据中,culmen 长度和深度被重命名为变量 culmen_length_mm 和 culmen_depth_mm。
1.1 数据集样本
我们加载数据,看看它是什么样的:
data = pd.read_csv(f".\\Datasets\\penguins_size.csv")
data.head()
复制代码
我们使用 Pandas 库来做数据可视化,并且加载的是一个更简单的数据集。
1.2 这个公共数据集适合解决什么问题?
它是练习解决分类和聚类问题的好帮手。在这里,你可以尝试各种分类算法,如决策树、随机森
林、SVM,或把它用于聚类问题并练习使用无监督学习。
1.3 有用的链接
在以下链接中可以获得有关 PalmerPenguins 数据集的更多信息:
2.共享单车需求数据集
这个数据集非常有趣。它对于初学者来说有点复杂,但也正因如此,它很适合拿来做练习。它包含
了华盛顿特区“首都自行车共享计划”中自行车租赁需求的数据,自行车共享和租赁系统通常是很好
的信息来源。这个数据集包含了有关骑行持续时间、出发地点、到达地点和经过时间的信息,还包
含了每一天每小时的天气信息。
介绍
GitHub
Kaggle
2.1 数据集样本
我们加载数据,看看它是什么样的。首先,我们使用数据集的每小时数据来执行操作:
每日数据是下面的样子:
data = pd.read_csv(f".\\Datasets\\hour.csv")
data.head()
复制代码
2.2 这个公共数据集适合解决什么问题?
由于该数据集包含的信息种类繁多,因此非常适合练习解决回归问题。你可以尝试对其使用多元线
性回归,或使用神经网络。
2.3 有用的链接
在以下链接中可以获得关于该数据集的更多信息:
3.葡萄酒分类数据集
这是一个经典之作。如果你喜欢葡萄树或计划成为索马里人,肯定会更中意它的。该数据集由两个
数据集组成。两者都包含来自葡萄牙 Vinho Verde 地区的葡萄酒的化学指标,一种用于红葡萄酒,
另一种用于白葡萄酒。由于隐私限制,数据集里没有关于葡萄种类、葡萄酒品牌、葡萄酒售价的数
据,但有关于葡萄酒质量的信息。
data = pd.read_csv(f".\\Datasets\\day.csv")
data.head()
复制代码
UCI
Kaggle
剩余27页未读,继续阅读
资源评论
博根工作室
- 粉丝: 4
- 资源: 43
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于opencv的人脸识别考勤系统python源码+数据.zip
- IOT安装包 iotech-iot-1.5-dev-1.5.0-amd64.deb
- 基于物品的协同过滤算法(推荐视频)工具类(见仁见智)
- 21信管2班 武学芹组+独立样本T检验数据分析案例.zip
- demo_ccms_global_open_wlan.py
- 小程序项目源码-小契约(交友互动小程序).zip
- 小程序项目源码-健身房预约课程小程序.zip
- 小程序项目源码-wechat-app-xiaoyima-master小程序.zip
- 小程序项目源码-滑动选项卡小程序.zip
- 小程序项目源码-学习Demo影视推荐、音乐播放、地图小程序.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功