1_2code_of_video.rar_python_数据挖掘

共10个文件

jpg：5个

png：2个

css：1个

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

python

数据挖掘

0 下载量 122 浏览量 2022-09-23 19:59:50 上传评论收藏 482KB RAR 举报

温馨提示

Python数据挖掘，挖一个特定网站的原始数据

资源推荐

资源详情

资源评论

收起资源包目录

1_2code_of_video.rar （10个子文件）

web

new_index.html 3KB

images

blah.png 21KB

bg3-dark.jpg 448KB

Fire.png 16KB

0002.jpg 6KB

0001.jpg 8KB

0004.jpg 9KB

0003.jpg 14KB

new_blah.css 2KB

2_web_parse.py 813B

共 10 条

from bs4 import BeautifulSoup data = [] path = './web/new_index.html' with open(path, 'r') as f: Soup = BeautifulSoup(f.read(), 'lxml') titles = Soup.select('ul > li > div.article-info > h3 > a') pics = Soup.select('ul > li > img') descs = Soup.select('ul > li > div.article-info > p.description') rates = Soup.select('ul > li > div.rate > span') cates = Soup.select('ul > li > div.article-info > p.meta-info') for title, pic, desc, rate, cate in zip(titles, pics, descs, rates, cates): info = { 'title': title.get_text(), 'pic': pic.get('src'), 'descs': desc.get_text(), 'rate': rate.get_text(), 'cate': list(cate.stripped_strings) } data.append(info) for i in data: if len(i['rate']) >= 3: print(i['title'], i['cate'])

评论收藏

内容反馈

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

资源评论