import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
try:
r = requests.get(url)
r.raise_for_status
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def fillUnivList(univList,html):
soup = BeautifulSoup(html,"html.parser")
for tr in soup.find("tbody").children:
if isinstance(tr,bs4.element.Tag): #tobody有的节点是空串,属于要判断类型进行过滤
tds = tr("td") #等价于tr.find_all("td")
univList.append([tds[0].string,tds[1].string,tds[2].string]) #NavigableString可以跨越多个层次
def printUnivList(univList,num):
tplt = "{0:^6}\t{1:^10}\t{2:^6}" #:前的数字说明使用format函数的第几个参数填充模板
print(tplt.format("排名","学校名称","地区",chr(12288)))
for i in range(num):
u = univList[i]
print(tplt.format(u[0],u[1],u[2],chr(12288)))
def main():
url= "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2020.html";
html = getHTMLText(url)
univList=[]
fillUnivList(univList,html)
printUnivList(univList,20)
main()
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
zuihaodaxue_spider.zip (1个子文件)
zuihaodaxue_spider.py 1KB
共 1 条
- 1
资源评论
Jay_+wqq_635731323
- 粉丝: 85
- 资源: 48
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功