## Python_Crawler:Python爬虫和Python数据分析小项目
### 简介
可以用Python实现的小项目,内容包括Python爬虫、Python数据分析等,持续更新中。
本Repository主要用于存放项目代码,对应的项目文章可以关注CSDN博客。
博客地址:https://blog.csdn.net/weixin_43746433
微信:why19970628
欢迎与我交流 :blush:
### 1.普通的爬虫项目介绍
1. **Sina_Topic_Spider**:
- 内容: 爬取某位明星的微博超话的上万条用户信息,对爬取的结果进行EDA分析与数据可视化,如分析用户年龄,性别分布、粉丝团的地区分布,词云打榜微博内容。
- 对应CSDN文章:《[爬取新浪微博某超话用户信息](https://blog.csdn.net/weixin_43746433/article/details/100091240)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
2. **LaGou**:
- 内容: 爬取拉勾网的职位的信息,爬取方式通过静态和动态网页,对爬取的结果进行EDA分析与数据可视化。
- 对应CSDN文章:《[Python爬虫实战之爬取拉勾网职位](https://blog.csdn.net/weixin_43746433)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
3. **ele_me**:
- 内容: 爬取饿了么某地区的外卖信息,并对外卖商铺信息、商品数据进行初步可视化。
- 对应CSDN文章:《[Python爬虫实战之爬取饿了么信息](https://blog.csdn.net/weixin_43746433/article/details/91906540)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
5. **DangDang_Books**:
- 内容:爬虫:当当网图书书名、书图、价格、简介、评分、评论数量等大约1000条Python图书数据。数据分析:图书评论数量分布的漏斗图、价格分布的柱状图、评论量Top、图书图片墙等可视化展示。<font color="red">(代码截止2019-08-25测试无误)</font>
- 对应CSDN文章:《[当当网图书爬虫与数据分析](https://blog.csdn.net/weixin_43746433/article/details/91906540)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
6. **LianJia**:
- 内容:多线程爬取链家的北京每个地区的所有小区的信息数据。
- 对应CSDN文章:《[爬取链家的小区信息](https://blog.csdn.net/weixin_43746433/article/details/95951341)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
7. **51_job**:
- 内容: 爬取51job前程无忧简关于数据分析的职位信息,并对获取的数据进行数据清洗与分析,如各城市招聘岗位数、薪资与各城市工作地点数量,关系,学历,经验要求等关系、公司类型与对应岗位数、职位要求等可视化。
- 对应CSDN文章:《[爬取51job前程无忧简历](https://blog.csdn.net/weixin_43746433/article/details/90490227)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
8. **Baidu_Music**:
- 内容: 批量下载百度音乐(千千音乐)任意歌手的所有歌曲。
- 对应CSDN文章:《[爬取百度音乐歌曲](https://blog.csdn.net/weixin_43746433/article/details/89814523)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
9. **QiDian_Story**:
- 内容: 批量下载起点中文小说网的所有小说,自动生成对应小说文件夹,并获取某一文件夹下含有某字符结尾的文件信息。
- 对应CSDN文章:《[爬取起点小说](https://blog.csdn.net/weixin_43746433/article/details/91410332)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
11. **DouBan_Movie**:
- 内容: 利用正则爬取豆瓣电影所有标签下的电影详情,数据导入数据库,并批量生成词云图。
- 对应CSDN文章:《[Python爬虫实战之爬取豆瓣详情以及影评](https://blog.csdn.net/weixin_43746433/article/details/90031364)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
12. **taobao_photo**:
- 内容: 批量下载淘宝搜索页面(代码截止2019-08-26测试无误)。
- 对应CSDN文章:《[博客地址](https://blog.csdn.net/weixin_43746433)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
13. **高考网**:
- 内容: 爬取高考网所有大学信息,对爬取的结果进行数据分析与数据可视化,如分析大学数量、地区分布、985 211地区分布、高校类型与属性分布等,初步分析我国高等教育分布的不均衡问题。
- 对应CSDN文章:《[爬取新浪微博某超话用户信息](https://blog.csdn.net/weixin_43746433/article/details/101547667)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
14. **Movie_tiantang**:
- 内容: 下载电影天堂最新电影数据(代码截止2019-08-28测试无误)。
- 对应CSDN文章:《[博客地址](https://blog.csdn.net/weixin_43746433)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
15. **yixuela.com**:
- 内容: 下载易学啦各个版本所有图书信息(代码截止2020-08-27测试无误)。
- 难度:★★☆☆☆
## 2.selenium框架自动化爬虫项目介绍
1. **taobao**:
- 内容: 爬取淘宝搜索美食的所有页面,并存入mysql/mongodb数据库,并对美食数据进行商品标题、销量排名与商铺信息、销量的城市排名、店铺所在城市分布情况、商品价格与销售额的关系等探索性数据分析。
- 对应CSDN文章:《[selenium爬取淘宝美食信息](https://blog.csdn.net/weixin_43746433/article/details/97623511)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★★☆☆
2. **Baidu_Address**:
- 内容: 利用selenium爬取百度地图的某地区的公司信息,包括公司名称,公司地址等。csv文件大约几十条数据
- 对应博客文章:《[博客地址](https://blog.csdn.net/weixin_43746433)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
![Image text](https://github.com/why19970628/Python_Crawler/tree/master/Baidu_Address/image/smaple.PNG)
3. **DouYu**:
- 内容: 利用selenium爬取斗鱼网所有主播的类别,房间标题,房间ID,主播名称,热度,csv文件大约15000条数据。
- 对应CSDN文章:《[博客地址](https://blog.csdn.net/weixin_43746433)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
4. **WangYi_Music**:
- 内容: 利用selenium爬取网易云音乐关于许嵩共计175首歌曲信息及歌词信息可视化。
- 对应CSDN文章:《[利用selenium爬取网易云音乐歌手歌曲信息并分析](https://blog.csdn.net/weixin_43746433/article/details/95243431)》
- 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
- 难度:★★☆☆☆
## 3.Scrapy框架爬虫项目介绍
1. **Qsbk**:
- 内容: 利用Scrapy框架爬取糗事百科段子。
-
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
解锁网络数据的宝藏:Python爬虫工具与教程集合 一、探索网络信息的无限宝藏 在互联网的海洋中,蕴藏着海量的有价值信息。如何合法、高效地获取这些信息?Python爬虫工具与教程为您揭开这一神秘面纱。通过这些资源,您可以轻松地爬取网站信息,提取所需内容,为各种应用场景提供强大的数据支持。 二、资源亮点 工具齐全:提供一系列功能强大的Python爬虫工具,满足您不同场景下的需求。 教程详尽:配套的Python爬虫教程,从基础到进阶,让您逐步掌握爬虫的核心技术。 合法合规:严格遵守法律法规和网站使用协议,确保采集行为合法,尊重网站权益。 实战项目:结合实际案例,让您在实践中掌握Python爬虫的运用,真正做到学以致用。 三、适用人群 无论您是数据分析师、网络开发者还是对Python爬虫感兴趣的爱好者,这些资源都将为您的学习和实践提供有力的支持。 四、使用建议 按需选择工具与教程:根据实际需求选择合适的工具和教程,确保学习与实践的有效性。 遵守法律法规与协议:在使用这些资源进行爬取活动时,务必遵守相关法律法规和网站的使用协议。 持续学习与更新:随着网络技术的不断进步,Python爬虫技术也在不断发展。建议您持续关注相关动态,提升自己的技能水平。 五、安全与责任 尊重网站权益:避免对目标网站的正常运行造成干扰或损害,合理使用资源。 隐私保护:在采集数据时,严格遵守隐私保护法规,不泄露或滥用用户个人信息。 风险防范:了解并应对潜在的网络威胁,采取相应措施降低风险。 感谢您选择我们的Python爬虫工具与教程集合!让我们一起挖掘网络信息的宝藏,为您的工作和研究注入新的活力!请务必遵守法律法规和网站使用协议,共同维护网络数据的合法采集与利用。
资源推荐
资源详情
资源评论
收起资源包目录
Python爬虫和Python数据分析小项目 (260个子文件)
scrapy.cfg 259B
scrapy.cfg 258B
scrapy.cfg 251B
scrapy.cfg 247B
douyu.csv 1.2MB
college_data.csv 702KB
cleaned.csv 220KB
sina_topic.csv 145KB
housedata2.csv 112KB
housedata1.csv 112KB
2020-04-20_company.csv 112KB
maoyan.csv 70KB
result_20200423.csv 44KB
dytt.csv 41KB
id20200424.csv 33KB
lagou1.csv 18KB
id.csv 14KB
machine_learning_hz_job2.csv 13KB
elemedata.csv 9KB
company.csv 7KB
music.csv 1KB
.DS_Store 8KB
.DS_Store 6KB
.gitattributes 271B
word_cloud.html 17KB
各地区高校数量段位图.html 11KB
高校分布热力图.html 10KB
高质量高校分布热力图.html 10KB
area.html 7KB
211高校排行.html 7KB
高质量高校分布热力图map.html 6KB
各城市高校数量.html 6KB
各城市高质量高校数量.html 6KB
985高校排行.html 5KB
高校类型分析pie.html 4KB
age_bar.html 4KB
高校数量前十名.html 4KB
高校数量后十名.html 4KB
age-pie.html 4KB
高校属性分析pie.html 3KB
北京上海江苏高质量高校占比.html 3KB
占比前十城市高质量高校占比.html 3KB
北京高质量高校占比.html 3KB
gender.html 2KB
vip-12306.iml 481B
地理位置.iml 453B
taobao.josn 961KB
duanzi.josn 128KB
20190828185021.jpg 150KB
examples.jpg 71KB
大数据公司类型图饼图.jpg 52KB
reward.jpg 24KB
captcha.jpg 12KB
WPS网盘.lnk 244B
README.md 11KB
README.md 565B
README.md 541B
README.md 506B
README.md 475B
readme.md 449B
README.md 418B
readme.md 403B
README.md 377B
readme.md 375B
README.md 373B
README.md 339B
README.md 290B
README.md 275B
README.md 260B
README.md 239B
README.md 221B
README.md 220B
README.md 215B
simple_show.PNG 574KB
1.png 533KB
1.png 533KB
eleme_wordcloud.png 303KB
coffee.png 249KB
simple_show.PNG 181KB
smaple.PNG 120KB
eleme_bar.png 116KB
动物世界.png 93KB
巴斯特·斯克鲁格斯的歌谣.png 84KB
cons.py 88KB
first.py 17KB
gkzy2.py 12KB
analyse.py 10KB
mtwm.py 9KB
zhaunzhai.py 7KB
jike2.py 7KB
sina_topic_spider.py 7KB
热搜.py 7KB
test_threading.py 6KB
ippools.py 6KB
job_company_workyears_pic.py 6KB
get_cookie.py 6KB
spider_dytt.py 6KB
taobao_food_Mongodb.py 6KB
51job_toCsv.py 5KB
taobao_food_mysql.py 5KB
共 260 条
- 1
- 2
- 3
资源评论
01红C
- 粉丝: 1922
- 资源: 2134
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功