Python数据挖掘项目开发实战_用决策树预测NBA获胜球队_编程案例实例详解课程教程.pdf

版权申诉

数据挖掘

Python

5星 · 超过95%的资源 126 浏览量 2023-05-07 08:07:09 上传评论 4 收藏 1.4MB PDF 举报

资源推荐

资源详情

资源评论

3.1 加载数据集 31

用决策树预测获胜球队

本章介绍另一种分类算法——决策树，用它预测NBA篮球赛的获胜球队。比起其他算法，决

策树有很多优点，其中最主要的一个优点是决策过程是机器和人都能看懂的，我们使用机器学习

到的模型就能完成预测任务。正如我们将在本章讲到的，决策树的另一个优点则是它能处理多种

不同类型的特征。

本章主要内容有：

 用pandas库加载、处理数据

 决策树

 随机森林

 对真实数据集进行数据挖掘

 创建新特征，用强有力的框架对其进行测试

3.1 加载数据集

本章将介绍怎样预测NBA获胜球队。如果你看过NBA，可能知道比赛中两支球队比分咬得

很紧，难分胜负，有时最后一分钟才能定输赢，因此预测赢家很难。很多体育赛事都有类似的特

点，预期的大赢家也许当天被另一支队伍给打败了。

以往很多对体育赛事预测的研究表明，正确率因体育赛事而异，其上限在70%~80%之间。

体育赛事预测多采用数据挖掘或统计学方法。

3.1.1 采集数据

我们将使用NBA 2013

—

2014赛季的比赛数据。http://Basketball-Reference.com网站提供了NBA

及其他赛事的大量资料和统计数据。请按以下方法下载数据。

(1) 在浏览器中打开http://www.basketball-reference.com/leagues/NBA_2014_games.html。

(2) 点击标题Regular Season旁边的Export按钮。

32 第3 章用决策树预测获胜球队

(3) 将文件下载到Data文件夹，记录文件的路径。

数据文件格式为CSV，包含了NBA常规赛季的1230场比赛。

CSV为简单的文本格式文件，每行为一条用逗号分隔的数据（文件格式的名字就是这么来

的）。在记事本里输入内容，保存时使用.csv扩展名，也能生成CSV文件。只要能阅读文本文件的

编辑器，就能打开CSV文件，也可以用Excel把它作为电子表格打开。

我们用pandas（Python Data Analysis的简写，意为Python数据分析）库加载这些数据，pandas

在数据处理方面特别有用。Python内置了读写CSV文件的

csv库。但是，考虑到后面创建新特征

时还要用到pandas更强大的一些函数，所以我们干脆用pandas加载数据文件。

本章需要安装

pandas。最简单的方法就是用pip3来安装，第1章中安装

scikit-learn库时用的就是pip3。pandas的安装方法如下：

$pip3 install pandas

安装过程中若遇到任何困难，请访问http://pandas.pydata.org/getpandas.html，

根据自己的系统，阅读相关安装指南。

3.1.2 用pandas 加载数据集

pandas库是用来加载、管理和处理数据的。它在后台处理数据结构，支持诸计算均值等分析

方法。

如果做过大量数据挖掘实验，就会发现自己翻来覆去地编写文件读取、特征抽取等函数。而

这些函数每重新实现一次，都可能引入新错误。使用pandas等封装了很多功能的库，能有效减少

反复实现上述函数所带来的工作量，并能保证代码的正确性。

本书后面会陆续介绍更多的数据挖掘案例，我们将大量使用pandas。

用

read_csv函数就能加载数据集：

import pandas as pd

dataset = pd.read_csv(data_filename)

上述代码会加载数据集，将其保存到数据框（dataframe）中。数据框提供了一些非常好用的

方法，后面会用到。我们来看看数据集是否有问题。输入以下代码，输出数据集的前5行：

dataset.ix[:5]

输出结果如下。

34 第3 章用决策树预测获胜球队

即使原始数据很规整，比如刚使用的这个，我们仍需要对其做些调整。其中一个原因是，文

件可能来自不同的系统，由于存在兼容性问题，文件也许会发生变化。

既然数据已经准备好，在开始编写预测算法之前，我们先定下一个正确率作为基准。该基准

任何算法都应该能达到。

每场比赛有两个队：主场队和客场队。最直接的方法就是拿几率作为基准，猜中的几率为

50%。猜测任意一支球队获胜，都有一半胜算。

3.1.4 提取新特征

我们接下来通过组合和比较现有数据抽取特征。首先，确定类别值。在测试阶段，拿算法得

到的分类结果与它对比，就能知道结果是否正确。类别可以有多种表示方法，我们这里用1表示

主场队获胜，用0表示客场队获胜。对于篮球比赛而言，得分最多的队伍获胜。虽然数据集没有

明确给出各球队的胜负情况，但是稍加计算就能得到。

找出主场获胜的球队：

dataset["HomeWin"] = dataset["VisitorPts"] < dataset["HomePts"]

我们把主场获胜球队的数据保存到NumPy数组里，稍后要用scikit-learn分类器对其进行

处理。当前pandas和

scikit-learn并没有进行整合，但是借助NumPy数组，它们配合地很好。

我们用pandas抽取特征后再用

scikit-learn抽取特征具体的值。

y_true = dataset["HomeWin"].values

上面的y_true数组保存的是类别数据，scikit-learn可直接读取该数组。

我们还可以创建一些特征用于数据挖掘。有时候，只要把原始数据丢给分类器就行了，但通

常需要先抽取数值型或类别型特征。

首先，创建两个能帮助我们进行预测的特征，分别是这两支队伍上场比赛的胜负情况。赢得

上场比赛，大致可以说明该球队水平较高。

遍历每一行数据，记录获胜球队。当到达一行新数据时，分别查看该行数据中的两支球队在

各自的上一场比赛中有没有获胜的。

创建（默认）字典，存储球队上次比赛的结果。

from collections import defaultdict

won_last = defaultdict(int)

字典的键为球队，值为是否赢得上一场比赛。遍历所有行，在此过程中，更新每一行，为其

增加两个特征值：两支球队在上场比赛有没有获胜。

剩余34页未读，继续阅读

评论收藏

内容反馈

版权申诉

shkpwbdkak

2023-07-26

这份文件的编程案例实例很有启发性，帮助我更好地理解和掌握了数据挖掘中的决策树算法。
内酷少女

2023-07-26

我在阅读这份文件后对Python数据挖掘项目开发的理解更加深入了，对于初学者来说非常友好。
史努比狗狗

2023-07-26

这个文件使用简单明了的语言，没有太多冗杂的理论概念，更符合实际应用需要。
胡说先森

2023-07-26

这份文件非常详细地介绍了Python数据挖掘项目开发实战，对于想要学习这方面知识的人来说非常有价值。
茶啊冲的小男孩

2023-07-26

里面的编程案例实例很实用，通过决策树预测NBA获胜球队这个例子教会了我如何应用数据挖掘技术。

前往

页

好知识传播者

粉丝: 498
资源: 4204

Python数据挖掘项目开发实战_用决策树预测NBA获胜球队_编程案例实例详解课程教程.pdf

Python开发二手房数据分析预测系统完整项目流程实战_编程案例实例详解课程教程.pdf

Python开发销售收入分析与预测完整项目流程实战_编程案例实例详解课程教程.pdf

python项目开发实战_智慧校园考试系统_编程案例实例详解课程教程.pdf

Python开发基于Flask的在线学习笔记练手项目流程实战_编程案例实例详解课程教程.pdf

Python开发背单词软件APP项目实战_编程案例实例详解课程教程.pdf

Python项目开发实战_分析世界杯热门夺冠球队_编程案例解析实例详解课程教程.pdf

Python网络爬虫项目开发实战_并发下载_编程案例解析实例详解课程教程.pdf

Python开发外卖网站项目实战_编程案例实例详解课程教程.pdf

Python项目开发实战_简单的字典_练手完整编程案例解析实例详解课程教程.pdf

Python Django Web典型模块开发实战_用Django设计大型电商的类别表_编程项目案例实例详解课程教程.pdf

Python Django Web典型模块开发实战_前后端分离项目上线部署到云服务器_编程项目案例实例详解课程教程.pdf

Python开发人工智能AI图像识别工具完整项目流程实战_编程案例实例详解课程教程.pdf

Python数据挖掘项目开发实战_用亲和性分析方法推荐电影_编程案例实例详解课程教程.pdf

Python开发DIY字符画练手完整项目流程实战_编程案例实例详解课程教程.pdf

Python开发超级玛丽冒险小游戏练手完整项目流程实战_编程案例实例详解课程教程.pdf

Python Django Web典型模块开发实战_分析吾爱破解论坛反爬虫机制_编程项目案例实例详解课程教程.pdf

Python Django Web典型模块开发实战_新浪微博的多端应用_编程项目案例实例详解课程教程.pdf

Python数据挖掘项目开发实战_新闻语料分类_编程案例解析实例详解课程教程.pdf

python项目开发实战_AI人机对战版五子棋游戏(AI+pygame)_编程案例实例课程教程.pdf

Python数据挖掘项目开发实战_大数据处理_编程案例解析实例详解课程教程.pdf

Python Django Web典型模块开发实战_区块链时代与Token登录_编程项目案例实例详解课程教程.pdf

基于Python+pytorch的图像处理+附完整代码图像处理，能够轻松实现图像的读取、显示、裁剪等还有机器学习等操作

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

《点燃我温暖你》中李峋的同款爱心代码

Python金融量化的高级库：TA-Lib-0.4.24（包含python3.7、3.8、3.9、3.10的32位和64位版本）

第十五届蓝桥杯大赛软件赛省赛-PythonB组题目

大麦网抢票脚本【Python脚本】

Python数据分析项目实践，包括数据读取、评估、清洗、分析、可视化机器学习相关内容等

YOLOv8-火焰识别（火焰数据集+代码+GUI界面+内置训练好的模型文件）

最新资源

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar