有对应的题目的CSDN文章
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
咱们这个任务啊,就是要从一个指定的网站上,抓取新闻内容,然后把它们整整齐齐地保存到本地。具体来说,就是要去光明网的板块里,瞅瞅里面的新闻,把它们一条条地保存下来。 首先,咱得有个网址,这就是咱要去的地方。然后用requests这个神奇的小工具,向这个网址发送个GET请求,就像是对网站说“喂,把你的内容给我送过来”。 接下来,用lxml这个库来解析网页,就像是拿到一本书,咱得知道目录在哪儿,正文在哪儿,才能把需要的内容找出来。 咱们的目标是抓取页面上的新闻链接,这些链接被放在了一系列的ul和li标签里。所以,咱得一个个ul去看,每个ul里面又是一堆li,每个li里面才是咱们要的新闻链接。 找到链接后,咱再次用requests去访问这个链接,把新闻的详细内容给抓回来。标题、正文咱都要,然后把它们整理一下,每条新闻保存成一个txt文件,文件名就按照咱抓取的顺序来编号,这样方便管理。 过程中,咱得注意,网页上的链接可能有的是完整的,有的可能就给了个后缀,咱得处理好这个,确保能正确访问到新闻的详细页面。然后,就是把新闻的标题和内容提取出来,去掉多余的空白字符,整整齐齐地写入到文件里。
资源推荐
资源详情
资源评论
收起资源包目录
新闻爬虫小胖.zip (53个子文件)
新闻爬虫小胖
src
运行截图.PNG 90KB
新闻爬虫_基础版.ipynb 26KB
txt
27.txt 1KB
07.txt 2KB
26.txt 1KB
37.txt 714B
33.txt 5KB
13.txt 19KB
44.txt 5KB
36.txt 160B
38.txt 2KB
15.txt 2KB
49.txt 5KB
14.txt 3KB
16.txt 2KB
11.txt 16KB
30.txt 3KB
05.txt 4KB
24.txt 10KB
34.txt 3KB
25.txt 229B
43.txt 1KB
29.txt 3KB
42.txt 1KB
40.txt 8KB
01.txt 172B
06.txt 1KB
19.txt 7KB
50.txt 9KB
28.txt 3KB
47.txt 9KB
31.txt 1KB
18.txt 7KB
12.txt 692B
20.txt 8KB
03.txt 209B
39.txt 3KB
46.txt 9KB
45.txt 825B
48.txt 514B
21.txt 2KB
22.txt 1KB
23.txt 1KB
41.txt 2KB
02.txt 422B
10.txt 860B
32.txt 3KB
09.txt 5KB
17.txt 2KB
35.txt 3KB
04.txt 835B
08.txt 253B
readme.txt 31B
共 53 条
- 1
资源评论
八块腹肌的小胖
- 粉丝: 118
- 资源: 34
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功