# DataScienceCourse
数据科学与大数据--python入门与爬虫
# 防ip被封
- 设置每次爬取停歇间隔较长一些
- 不用登陆的方式爬取,爬取非登录状态下的最多评论即可
# 课后作业
## 题目
- 爬取豆瓣动漫类电影/电视剧评论及相关实体内容
## 步骤
- 获取url池
- 爬取信息
- 存储信息
## url池来源
- [豆瓣动漫类电影](https://movie.douban.com/tag/#/?sort=U&range=0,10&tags=%E5%8A%A8%E6%BC%AB)
- 关键在于获取js的动态加载内容
## 提醒
- 防止ip被封,可以使用代理
- 每爬一次使用time.sleep()
## 爬取实体
- 评论内容(comment_content)
- 评论星级(comment_star)
- 评论人id(comment_id)
- 评论时间(comment_time)
- 评论点赞数(comment_votes)
## 作业环境
```
pip/anaconda + requirements.txt + 安装mysql/mongo/mongo云(三选一)
或者
docker环境
```
# 实验报告
- [实验报告模板](./实验报告/)
# docker(如果选择docker作为环境)
```
docker-compose up -d
docker exec -it xxx bash (xxx 为python的container id)
```
# 课前准备 :fire:
> 请根据下面的链接和提示进行进行相关安装和注册做好课前准备 :+1:
- [Chrome](https://www.google.cn/intl/zh-CN/chrome/)
- 安装
- [Microsoft Azure Notebook](https://notebooks.azure.com/)
- 确认自己有可用的微软账号
- [mongoDb Altas 注册账号](https://www.mongodb.com/cloud)
- 注册账户
- [Anaconda](https://www.anaconda.com/)
- 安装
- [python 3.6.8](https://www.python.org/ftp/python/3.6.8/python-3.6.8-amd64.exe)
- 选择自定义的安装方式
- ![img](./img/wechat1.png)
- ![img](./img/wechat2.png)
- 如果出现跳转商店
- 打开应用执行别名关掉应用安装程序
- ![img](./img/wechat3.png)
- check 在终端中python 命令可行
- [vscode](https://code.visualstudio.com/)
- 安装插件python
- 安装插件docker
- 安装插件Remote Development
- [docker](https://hub.docker.com/?overlay=onboarding)
- 选安装
- win10 + 打开hyper-v 才能在win环境中使用
- Linux or MAC 直接安装即可
- linux用户在本rep下
- ```bash
chmod +x docker.sh
./docker.sh
```
# 课堂内容
- [Microsoft Azure Notebook](https://notebooks.azure.com/JA1LE1/projects/XMUDataScienceAndBigData)
没有合适的资源?快使用搜索试试~ 我知道了~
数据科学与大数据--python入门与爬虫.zip
共54个文件
png:16个
ipynb:9个
jpg:8个
需积分: 5 0 下载量 182 浏览量
2024-03-07
17:37:59
上传
评论
收藏 12.92MB ZIP 举报
温馨提示
数据科学与大数据--python入门与爬虫
资源推荐
资源详情
资源评论
收起资源包目录
数据科学与大数据--python入门与爬虫.zip (54个子文件)
DataScienceCourse-master
实验报告
实验一 Python入门与实践.pdf 89KB
实验一 Python入门与实践.docx 19KB
README.md 904B
docker-compose.yml 702B
Notebook
06 文件和异常.ipynb 30KB
05 字符串与正则表达式.ipynb 32KB
02 逻辑控制状态.ipynb 12KB
07 云数据库入门.ipynb 35KB
img
requests-sidebar.png 299KB
mongodb.png 148KB
爬虫工作流程.png 76KB
kaggle.png 156KB
chrome4.gif 1.26MB
5.1.png 200KB
02-htmltree.gif 3KB
02_http_pro.jpg 21KB
re.png 185KB
tobecontinue.jpg 517KB
正则表达式表.png 158KB
nikeyang.jpg 52KB
chrome2.gif 1.43MB
chrome5.gif 868KB
chrome3.gif 1.39MB
chrome1.gif 1.15MB
03 函数(方法).ipynb 12KB
04 数据结构.ipynb 27KB
00 本课程入门指引.ipynb 8KB
images
ifgif.gif 337KB
myproject.png 4KB
fileopen.png 71KB
if-condition.jpg 24KB
clone.png 7KB
re.png 185KB
nikeyang.jpg 52KB
while.jpg 9KB
for.jpg 12KB
loop.jpg 8KB
08 爬虫入门与实践.ipynb 66KB
01 Helloworld,基础语法与变量计算.ipynb 27KB
README.md 350B
img
DL.png 97KB
wechat3.png 26KB
Flatt3d-Container-512.png 63KB
wechat1.png 171KB
wechat.svg 2KB
container-svgrepo-com.svg 6KB
wechat2.png 176KB
anaconda.tif 43KB
requirements.txt 381B
环境配置.md 750B
.gitignore 15B
ppt
Ch7-python入门与实践_10-23更新.pptx 5.61MB
README.md 2KB
docker.sh 912B
共 54 条
- 1
资源评论
日刷百题
- 粉丝: 5353
- 资源: 951
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 海尔618算价表_七海5.20_16.00xlsx(1)(2).xlsx
- WebCrawler.scr
- 【计算机专业毕业设计】大学生就业信息管理系统设计源码.zip
- YOLO 数据集:8种路面缺陷病害检测【包含划分好的数据集、类别class文件、数据可视化脚本】
- JAVA实现Modbus RTU或Modbus TCPIP案例.zip
- 基于YOLOv8的FPS TPS AI自动锁定源码+使用步骤说明.zip
- JAVA实现Modbus RTU或Modbus TCPIP案例.zip
- 基于yolov8+streamlit的火灾检测部署源码+模型.zip
- 测试aaaaaaabbbbb
- VID20240521070643.mp4
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功