## Python_Crawler:Python爬虫和Python数据分析小项目
### 简介
可以用Python实现的小项目,内容包括Python爬虫、Python数据分析等,持续更新中。
本Repository主要用于存放项目代码,对应的项目文章可以关注CSDN博客。
博客地址:https://blog.csdn.net/weixin_43746433
微信:why19970628
欢迎与我交流 :blush:
### 1.普通的爬虫项目介绍
1. **Sina_Topic_Spider**:
- 内容: 爬取某位明星的微博超话的上万条用户信息,对爬取的结果进行EDA分析与数据可视化,如分析用户年龄,性别分布、粉丝团的地区分布,词云打榜微博内容。
- 对应CSDN文章:《[爬取新浪微博某超话用户信息](https://blog.csdn.net/weixin_43746433/article/details/100091240)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
2. **LaGou**:
- 内容: 爬取拉勾网的职位的信息,爬取方式通过静态和动态网页,对爬取的结果进行EDA分析与数据可视化。
- 对应CSDN文章:《[Python爬虫实战之爬取拉勾网职位](https://blog.csdn.net/weixin_43746433)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
3. **ele_me**:
- 内容: 爬取饿了么某地区的外卖信息,并对外卖商铺信息、商品数据进行初步可视化。
- 对应CSDN文章:《[Python爬虫实战之爬取饿了么信息](https://blog.csdn.net/weixin_43746433/article/details/91906540)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
5. **DangDang_Books**:
- 内容:爬虫:当当网图书书名、书图、价格、简介、评分、评论数量等大约1000条Python图书数据。数据分析:图书评论数量分布的漏斗图、价格分布的柱状图、评论量Top、图书图片墙等可视化展示。<font color="red">(代码截止2019-08-25测试无误)</font>
- 对应CSDN文章:《[当当网图书爬虫与数据分析](https://blog.csdn.net/weixin_43746433/article/details/91906540)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
6. **LianJia**:
- 内容:多线程爬取链家的北京每个地区的所有小区的信息数据。
- 对应CSDN文章:《[爬取链家的小区信息](https://blog.csdn.net/weixin_43746433/article/details/95951341)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
7. **51_job**:
- 内容: 爬取51job前程无忧简关于数据分析的职位信息,并对获取的数据进行数据清洗与分析,如各城市招聘岗位数、薪资与各城市工作地点数量,关系,学历,经验要求等关系、公司类型与对应岗位数、职位要求等可视化。
- 对应CSDN文章:《[爬取51job前程无忧简历](https://blog.csdn.net/weixin_43746433/article/details/90490227)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
8. **Baidu_Music**:
- 内容: 批量下载百度音乐(千千音乐)任意歌手的所有歌曲。
- 对应CSDN文章:《[爬取百度音乐歌曲](https://blog.csdn.net/weixin_43746433/article/details/89814523)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
9. **QiDian_Story**:
- 内容: 批量下载起点中文小说网的所有小说,自动生成对应小说文件夹,并获取某一文件夹下含有某字符结尾的文件信息。
- 对应CSDN文章:《[爬取起点小说](https://blog.csdn.net/weixin_43746433/article/details/91410332)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
11. **DouBan_Movie**:
- 内容: 利用正则爬取豆瓣电影所有标签下的电影详情,数据导入数据库,并批量生成词云图。
- 对应CSDN文章:《[Python爬虫实战之爬取豆瓣详情以及影评](https://blog.csdn.net/weixin_43746433/article/details/90031364)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
12. **taobao_photo**:
- 内容: 批量下载淘宝搜索页面(代码截止2019-08-26测试无误)。
- 对应CSDN文章:《[博客地址](https://blog.csdn.net/weixin_43746433)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
13. **高考网**:
- 内容: 爬取高考网所有大学信息,对爬取的结果进行数据分析与数据可视化,如分析大学数量、地区分布、985 211地区分布、高校类型与属性分布等,初步分析我国高等教育分布的不均衡问题。
- 对应CSDN文章:《[爬取新浪微博某超话用户信息](https://blog.csdn.net/weixin_43746433/article/details/101547667)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
14. **Movie_tiantang**:
- 内容: 下载电影天堂最新电影数据(代码截止2019-08-28测试无误)。
- 对应CSDN文章:《[博客地址](https://blog.csdn.net/weixin_43746433)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
15. **yixuela.com**:
- 内容: 下载易学啦各个版本所有图书信息(代码截止2020-08-27测试无误)。
- 难度:★★☆☆☆
## 2.selenium框架自动化爬虫项目介绍
1. **taobao**:
- 内容: 爬取淘宝搜索美食的所有页面,并存入mysql/mongodb数据库,并对美食数据进行商品标题、销量排名与商铺信息、销量的城市排名、店铺所在城市分布情况、商品价格与销售额的关系等探索性数据分析。
- 对应CSDN文章:《[selenium爬取淘宝美食信息](https://blog.csdn.net/weixin_43746433/article/details/97623511)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
2. **Baidu_Address**:
- 内容: 利用selenium爬取百度地图的某地区的公司信息,包括公司名称,公司地址等。csv文件大约几十条数据
- 对应博客文章:《[博客地址](https://blog.csdn.net/weixin_43746433)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
![Image text](https://github.com/why19970628/Python_Crawler/tree/master/Baidu_Address/image/smaple.PNG)
3. **DouYu**:
- 内容: 利用selenium爬取斗鱼网所有主播的类别,房间标题,房间ID,主播名称,热度,csv文件大约15000条数据。
- 对应CSDN文章:《[博客地址](https://blog.csdn.net/weixin_43746433)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
4. **WangYi_Music**:
- 内容: 利用selenium爬取网易云音乐关于许嵩共计175首歌曲信息及歌词信息可视化。
- 对应CSDN文章:《[利用selenium爬取网易云音乐歌手歌曲信息并分析](https://blog.csdn.net/weixin_43746433/article/details/95243431)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
## 3.Scrapy框架爬虫项目介绍
1. **Qsbk**:
- 内容: 利用Scrapy框架爬取糗事百科段子。
-
Python爬虫和Python数据分析小项目
需积分: 0 199 浏览量
更新于2023-12-28
收藏 4.41MB ZIP 举报
解锁网络数据的宝藏:Python爬虫工具与教程集合
一、探索网络信息的无限宝藏
在互联网的海洋中,蕴藏着海量的有价值信息。如何合法、高效地获取这些信息?Python爬虫工具与教程为您揭开这一神秘面纱。通过这些资源,您可以轻松地爬取网站信息,提取所需内容,为各种应用场景提供强大的数据支持。
二、资源亮点
工具齐全:提供一系列功能强大的Python爬虫工具,满足您不同场景下的需求。
教程详尽:配套的Python爬虫教程,从基础到进阶,让您逐步掌握爬虫的核心技术。
合法合规:严格遵守法律法规和网站使用协议,确保采集行为合法,尊重网站权益。
实战项目:结合实际案例,让您在实践中掌握Python爬虫的运用,真正做到学以致用。
三、适用人群
无论您是数据分析师、网络开发者还是对Python爬虫感兴趣的爱好者,这些资源都将为您的学习和实践提供有力的支持。
四、使用建议
按需选择工具与教程:根据实际需求选择合适的工具和教程,确保学习与实践的有效性。
遵守法律法规与协议:在使用这些资源进行爬取活动时,务必遵守相关法律法规和网站的使用协议。
持续学习与更新:随着网络技术的不断进步,Python爬虫技术也在不断发展。建议您持续关注相关动态,提升自己的技能水平。
五、安全与责任
尊重网站权益:避免对目标网站的正常运行造成干扰或损害,合理使用资源。
隐私保护:在采集数据时,严格遵守隐私保护法规,不泄露或滥用用户个人信息。
风险防范:了解并应对潜在的网络威胁,采取相应措施降低风险。
感谢您选择我们的Python爬虫工具与教程集合!让我们一起挖掘网络信息的宝藏,为您的工作和研究注入新的活力!请务必遵守法律法规和网站使用协议,共同维护网络数据的合法采集与利用。
%小红书%bin
- 粉丝: 2016
- 资源: 2148
最新资源
- (174298652)基于QT的酒店管理系统设计
- (175720404)安卓期末大作业(AndroidStudio开发),垃圾分类助手app,分为前台后台,代码有注释,均能正常运行
- wireshark抓包-OSPF
- (176182006)python小游戏(免费)
- (176485414)基于servlet+jsp+mysql的图书馆管理系统.zip
- (176703248)QT图书管理系统的源代码
- (177098224)安卓期末大作业Android Studio 简易计算器实现
- (177234252)单片机LCD滚动显示汉字proteus仿真实例.rar
- (177294410)数据库课设医药信息管理系统