# 《Python 机器学习实践指南》读书笔记与代码分享 #
  本书上传的所有代码都是可以运行的,在此附上本书源码的github地址:[https://github.com/PacktPublishing/Python-Machine-Learning-Blueprints](https://github.com/PacktPublishing/Python-Machine-Learning-Blueprints),在此向本书作者和译者表示感谢
## 运行环境 ##
Python 版本:3.6.2
PyCharm 版本:PyCharm 2017.3.3 (Professional Edition)
## 代码结构 ##
<pre>
src
+---ch1
| +----groupby_learning.py--------------聚类函数示例
| +----matpolotlib_bar.py---------------推积条形图展示
| +----matpolotlib_hist.py--------------直方图展示
| +----matpolotlib_plot.py--------------折线图展示
| +----matpolotlib_scatter.py-----------散点图展示
| +----matpolotlib_subplots.py----------多图展示
| +----pandas_learning.py---------------获取Iris数据
| +----scikit_test1.py------------------scikit评估预测示例
| +----scikit_test2.py
| +----seabarn_learning.py
| +----seabarn_violin.py----------------seabarn小提琴图展示
| +----statsmodels_learning.py----------建模:回归模型示例
+---ch2
| +----analysisData.py------------------分析数据
| +----getMagicData.py------------------得到公寓的数据并进行数据清理
| +----modelingData.py------------------对数据建模
| +----predictData.py-------------------预测(不知道什么原因,代码报错,目前还没有找到解决办法,追踪了源码,仍未解决)
| +----showData.py----------------------可视化数据(由于没有地理json,该代码无法运行)
+---ch3
| +----getTicketsData.py----------------获得机票数据(由于跳转到中文版页面,获取数据的代码还需要重写,没有完成)
| +----seleniumTest.py------------------爬虫测试代码,获取当天斗鱼的房间名和人气数
+---ch4
| +----analysisData.py------------------分析IPO数据
| +----analysisFeature.py---------------分析特征重要性,拟合随机森林分类器
| +----getFeature.py--------------------特征工程,获取特征值
| +----getIPOData.py--------------------获取IPO数据
| +----predictData_2014_0.25.py---------分析2014年之后的数据,阈值=1
| +----predictData_2015_0.25.py---------分析2015年之后的数据,阈值=0.25
| +----predictData_2015_1.py------------二元分类,分析2015年之后的数据,阈值=1
+---ch7
| +----analysisData.py------------------分析数据
| +----analysisData_extend.py-----------分析延伸数据
| +----ch7utils.py----------------------展示在策略的统计信息
| +----dynamicTimeWarping.py------------动态时间扭曲算法(该算法需要运行821*821次,需要计算大约65万次,如果用单机跑,会很慢)
| +----getData.py-----------------------获取SPY2010-2016年数据
| +----getData_extend.py----------------获取SPY2000-2016年数据
| +----getModel_extend_1000.py----------选择最后1000个作为测试节点
| +----getModel_extend_2000.py----------选择最后2000个作为测试节点
+---ch8
| +----chi2kernel.py--------------------卡方核算法
| +----cosineSimilarity.py--------------余弦相似性算法
| +----getDigitsData.py-----------------加载MNIST手写数字数据库
+---ch9
| +----eliza_chat.py--------------------NLTK的聊天机器人Demo程序
| +----getData.py-----------------------加载nscb.csv数据
| +----getSimilarityAnswers.py----------简易版的聊天机器人
+---ch10
| +----cntrdCoSim.py--------------------基于项目的过滤示例
| +----getSimilarity.py-----------------进行相似性预测和评估
| +----getStarted.py--------------------得到本人自己的github打star的数据
\---data
+----ipo_data.csv---------------------第四章IPO数据
+----iris.data------------------------第一章数据
+----magic.csv------------------------第二章公寓数据
+----nscb.csv-------------------------第九章聊天数据集
+----SCOOP-Rating-Performance.xls-----SCOOP的所有指数数据,可参考书中下载
+----spy.csv
+----spy_2000_2016.csv----------------SPY2000年-2016年数据
+----spy_2010_2016.csv----------------SPY2010年-2016年数据
docs
+---基于序列到序列模型的神经网络构造.pdf-------本书推荐的论文
</pre>
## 运行结果 ##
第九章-简易聊天机器人的运行截图
![](https://i.imgur.com/W656E0U.png)
## 总结 ##
  看完整本书用了10天左右,在单机上运行了实验代码,并在其中做了很多兼容性调整,书中有一部分代码在Jupyter Notebook下运行会提示警告,上传的代码中已经消除。
  本书为了通过介绍机器学习来对各个领域进行初步的了解,比如NLP(自然语言处理)、图像识别、深度学习、推荐引擎、基本爬虫知识以及量化交易。
**说明**:
1. 第二章中的预测代码错误还未解决,以后会花时间解决。
2. 由于第五章和第六章的数据获取不到,不能编写实验代码。
3. 第八章由于graphlab目前只能支持Python2.7,不能支持Python3.X,故不能进行深度学习实验。
4. 第九章的聊天机器人的实验非常棒,建议亲手试试看。
5. 上述项目没有涉及任何部署的步骤。
没有合适的资源?快使用搜索试试~ 我知道了~
《Python机器学习实践指南》代码和笔记.zip
共54个文件
py:43个
csv:6个
pdf:1个
需积分: 5 0 下载量 137 浏览量
2024-02-21
12:41:30
上传
评论
收藏 2.62MB ZIP 举报
温馨提示
《Python机器学习实践指南》代码和笔记
资源推荐
资源详情
资源评论
收起资源包目录
《Python机器学习实践指南》代码和笔记.zip (54个子文件)
kwan1117
src
ch8
cosineSimilarity.py 389B
chi2kernel.py 353B
getDigitsData.py 388B
ch9
getData.py 487B
getSimilarityAnswers.py 1KB
eliza_chat.py 7KB
ch10
getStarted.py 3KB
getSimilarity.py 365B
cntrdCoSim.py 1KB
data
spy.csv 320KB
ipo_data.csv 304KB
nscb.csv 12.72MB
spy_2010_2016.csv 124KB
iris.data 4KB
SCOOP-Rating-Performance.xls 950KB
magic.csv 202KB
spy_2000_2016.csv 310KB
ch7
analysisData.py 2KB
getModel_extend_1000.py 2KB
ch7utils.py 825B
getData.py 631B
dynamicTimeWarping.py 1KB
analysisData_extend.py 1KB
getModel_extend_2000.py 2KB
getData_extend.py 625B
ch1
matpolotlib_plot.py 299B
matpolotlib_subplots.py 974B
seabarn_violin.py 584B
pandas_learning.py 1KB
matpolotlib_hist.py 346B
matpolotlib_bar.py 835B
statsmodels_learning.py 783B
matpolotlib_scatter.py 321B
groupby_learning.py 312B
seabarn_learning.py 133B
scikit_test1.py 1KB
scikit_test2.py 697B
ch4
analysisData.py 1KB
getFeature.py 8KB
analysisFeature.py 1KB
predictData_2014_0.25.py 1KB
getIPOData.py 1KB
predictData_2015_0.25.py 1KB
predictData_2015_1.py 1KB
ch2
analysisData.py 660B
getMagicData.py 2KB
showData.py 637B
predictData.py 397B
modelingData.py 262B
ch3
getTicketsData.py 2KB
seleniumTest.py 1006B
docs
基于序列到序列模型的神经网络构造.pdf 79KB
.gitignore 3KB
README.md 5KB
共 54 条
- 1
资源评论
Kwan的解忧杂货铺
- 粉丝: 1w+
- 资源: 3651
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 下载安装这个软件.apk
- 【数据集详细解释及案例分析】数据集详细解释及案例分析
- 基于SHT71温湿度传感器、STM32F103C8T6、LCD1602温湿度采集显示系统proteus仿真设计
- 基于TH02温湿度传感器、STM32F103C8T6、LCD1602、FREERTOS的温湿度采集系统proteus仿真设计
- 【TCP-IP协议详细解释及案例分析】TCP-IP协议详细解释及案例分析
- 一文搞懂 LSTM(长短期记忆网络).rar
- 【autosar简介及基本案例解析】autosar简介及基本案例解析
- java模拟斗地主洗牌发牌
- springboot+vue登录系统 vue部分
- 常用常见 SQL语句语法
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功