#### 《网络数据爬取与分析实务教程》
1. 数据科学概述
- 1.1 什么是数据科学
- 1.2 数据工程师、数据分析师与数据科学家
2. Python语法基础
- 2.1 Python的程序结构
- 2.2 Python编码规范
- 2.3 Python编程环境的搭建
- 2.4 Python的数据结构
- 2.5 Python控制语句
3. 使用Urllib库编写爬虫
- 3.1 网络爬虫概述
- 3.2 使用urllib.request模块编写爬虫
- 3.3 修改User-Agent属性模拟浏览器访问
- 3.4 HTTP协议详解
- 3.5 模拟HTTP-GET方法的爬虫
- 3.6 模拟HTTP-POST方法的爬虫
4. 使用正则表达式提取数据
- 4.1 正则表达式原理
- 4.2 正则表达式语法
- 4.3 re模块常用的函数
- 4.4 正则表达式应用实例
5. 使用BeautifulSoup库提取数据
- 5.1 BeautifulSoup包简介
- 5.2 BeautifulSoup的信息提取
- 5.3 BeautifulSoup的遍历
6. 爬虫项目实战
- 6.1网易新闻中心爬虫
- 6.2 通过session模拟登陆豆瓣
- 6.3 链家二手房信息爬虫
- 6.4爬取拉勾网json格式数据
7. Pandas数据处理基础
- 7.1数据处理概述
- 7.2 DataFrame的基本操作
- 7.3 DataFrame数据的连接
- 7.4 Pandas数据输入输出
8. Pandas数据处理常用方法
- 8.1 分组统计与转换
- 8.2 缺失值处理
- 8.3 时间序列数据处理
- 8.4 向量转换
9. 数据处理实战
- 9.1 二手房数据处理
- 9.2 职位数据处理
- 9.3 职位描述中文自然语言处理
10. SQlite数据库操作
- 10.1 SQlite数据库简介
- 10.2 Python读写SQlite
- 10.3 Pandas读写SQlite
11. 机器学习概述
- 11.1 认识机器学习
- 11.2 机器学习的应用范围
- 11.3 机器学习的算法
- 11.4 scikit-learn机器学习包
12. 从线性回归到分类
- 12.1 线性回归算法
- 12.2 逻辑回归分类算法
13. 分类模型及应用
- 13.1 K近邻分类算法
- 13.2 决策树分类算法
- 13.3 随机森林分类算法
14. 分类模型的评估
- 14.1训练与测试样本
- 14.2 性能评价指标
- 14.3分类阈值的调整
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
《网络数据爬取与分析实务教程》相关代码与数据集_Data-Crawling-and-Analysing.zip (31个子文件)
Data-Crawling-and-Analysing-master
html_新闻.txt 320KB
第12章 从线性回归到分类.ipynb 72KB
第14章 分类模型的评估.ipynb 120KB
爬取上海天气后报数据参考代码.ipynb 4KB
Advertising.csv 4KB
Pandas_书籍销售.xlsx 15KB
第8章 Pandas数据处理常用方法.ipynb 115KB
第13章 分类模型及应用.ipynb 123KB
第9章 数据处理实战.ipynb 33KB
dfexcel.xlsx 5KB
pandas_泰坦尼克幸存者.csv 67KB
pandas_P2Plending.xls 1.51MB
爬取上海公交线路数据参考代码.ipynb 18KB
pandas_苹果股价.xlsx 348KB
第5章 使用BeautifulSoup库提取数据.ipynb 16KB
第4章 使用正则表达式提取数据.ipynb 4KB
dftext.txt 96B
pandas_欧洲杯.xlsx 11KB
第6章 爬虫项目实战.ipynb 17KB
第11章 机器学习概述.ipynb 8KB
第10章 SQLite数据库操作.ipynb 5KB
pima-indians-diabetes.csv 26KB
json_职位.txt 23KB
pandas_余额宝收益率.xlsx 15KB
第3章 使用Urllib库编写爬虫.ipynb 4KB
README.md 2KB
pandas_职位招聘.xls 4.69MB
pandas_二手房.xlsx 308KB
pandas_news.csv 201KB
第7章 Pandas数据处理基础.ipynb 67KB
Pandas_学生.xlsx 19KB
共 31 条
- 1
资源评论
好家伙VCC
- 粉丝: 1983
- 资源: 9142
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Dell R740 H350阵列卡驱动,适用于Windows Server 2012R2,Windows Server 2016
- LED编辑软件 新一代LED软件
- rasterio-1.3.11-cp310-cp310-win-amd64
- rasterio-1.3.11-cp311-cp311-win-amd64
- 书写设置,在线课堂,教鞭
- 1_副本创新MOM推行查表 (11.8-11.15 .xlsx
- MongoDB Shell 下载 版本:2.3.3 Windows x64
- PySpark 数据处理实战:从基础操作到案例分析数据
- fiona-1.10.1-cp311-cp311-win-amd64
- 电子行业报告:芯原股份2023年半年报解读及前景展望
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功