【免费】python爬虫获取2023世界大学排名_python大学排名资源-CSDN文库

共3个文件

html：1个

py：1个

csv：1个

需积分: 0 42 浏览量 2023-06-15 19:44:41 上传评论 7 收藏 27KB RAR 举报

Python爬虫技术是一种用于自动化网络数据抓取的编程方法，尤其在数据分析、信息挖掘和Web应用开发中广泛应用。本项目“python爬虫获取2023世界大学排名”旨在教授如何利用Python爬虫技术获取并展示最新的全球大学排名。通过这个项目，你可以学习到以下关键知识点： 1. **Python基础知识**：你需要对Python编程有一定的了解，包括变量、数据类型、控制结构（如if语句和for循环）、函数等。 2. **网络请求库**：在Python中，如`requests`库是常用的发送HTTP请求的工具，它能帮助我们获取网页内容。了解如何设置URL、发送GET请求以及处理返回的响应是爬虫的基础。 3. **HTML与CSS选择器**：理解HTML的基本结构和CSS选择器是解析网页内容的关键。`BeautifulSoup`或`lxml`等库可以帮助解析HTML文档，通过CSS选择器定位到我们需要的数据。 4. **数据提取与清洗**：在网页中找到大学排名后，你需要提取有用的信息，例如大学名称、得分等。这可能涉及到字符串操作、正则表达式或者更复杂的逻辑。 5. **文件操作**：抓取到的数据通常需要保存到本地，以便后续处理或展示。Python的内置`open()`函数和`csv`库可以帮助我们读写文件，或者使用`pandas`库进行更高效的数据处理和存储。 6. **前端可视化**：项目中提到的前端可视化可能使用了JavaScript库，如`D3.js`或`ECharts`，这些库可以创建交互式的图表，将爬取的大学排名数据以图形化的方式展示出来。对于初学者，理解HTML、CSS和基础JavaScript也是必要的。 7. **异常处理与请求策略**：网络请求可能会遇到各种问题，如超时、重定向、验证码等。学习如何处理这些异常，以及如何使用`time.sleep()`来避免频繁请求导致IP被封，是爬虫实践中不可或缺的一部分。 8. **数据结构与算法**：在处理大量数据时，合理地组织数据结构（如列表、字典、集合）和选择合适的算法（如排序、过滤）可以提高代码效率。 9. **代码模块化与版本控制**：良好的代码组织习惯，如编写可复用的函数，以及使用版本控制系统如Git进行代码管理，对于大型项目至关重要。 10. **伦理与法规**：在进行网络爬虫时，应遵守网站的robots.txt文件规定，尊重数据隐私，避免非法抓取，理解并遵守相关的法律法规。通过实践这个项目，你可以深入理解Python爬虫的工作原理，并掌握一套完整的数据获取和展示流程。同时，这个过程也会提升你的编程思维和问题解决能力，为未来的数据分析和Web开发打下坚实基础。

资源推荐

资源详情

资源评论

收起资源包目录

2023年世界大学排名爬虫及前端可视化.rar （3个子文件）

2023年世界大学排名爬虫及前端可视化

期末设计.py 5KB

3.html 289KB

rank.csv 151KB

#爬取数据 import re import requests #发送请求 import csv # with open('rank.csv', encoding='utf-8', newline='', mode='a') as f: # csv_writer = csv.writer(f) # csv_writer.writerow(['university','region','country','score','rank','year']) # url='https://www.qschina.cn/sites/default/files/qs-rankings-data/cn/2174878_indicators.txt' # response = requests.get(url) #<Response [200]>: 请求成功 # json_date=response.json() #python字典 # def replace(str_): # str_=re.findall('<div class="td-wrap"><div class="td-wrap-in">(.*?)</div></div>',str_)[0] # return str_ # for i in json_date['data']: # year="2023" # country= i['location'] # rank= i['overall_rank'] # region= i['region'] # score=replace(i['overall']) # university=i['uni'] # university=re.findall('<div class="td-wrap"><div class="td-wrap-in"><a href=".*?" class="uni-link">(.*?)</a></div></div>',university)[0] # print(university,region,country,score,rank,year) # with open('rank.csv',encoding='utf-8',newline='',mode='a')as f: # csv_writer=csv.writer(f) # csv_writer.writerow([university,region,country,score,rank,year]) from pyecharts.charts import * from pyecharts import options as opts import pandas as pd pd.set_option('display.max_columns', None) # 展示所有列 df = pd.read_csv('rank.csv') # 香港，澳门与中国大陆地区等在榜单中是分开的记录的，这边都归为china df['loc'] = df['country'] df['country'].replace(['China (Mainland)', 'Hong Kong SAR', 'Taiwan', 'Macau SAR'],'China',inplace=True) tool_js = """ <div style="border-bottom: 1px solid rgba(255,255,255,.3); font-size: 18px;padding-bottom: 7px;margin-bottom: 7px"> {} </div> 排名：{} <br> 国家地区：{} <br> 加权总分：{} <br> """ """ 国际学生：{} <br> 国际教师：{} <br> 师生比例：{} <br> 学术声誉：{} <br> 雇主声誉：{} <br> 教员引用率：{} <br> """ df['rank']=pd.to_numeric(df['rank'],errors='coerce') # print(df.info()) t_data = df[(df.year =='2023') & (df['rank'] <= 100)] # print(t_data.head()) t_data = t_data.sort_values(by="score" , ascending=True) print(t_data.head()) university, score = [], [] for idx, row in t_data.iterrows(): tjs = tool_js.format(row['university'], row['rank'], row['country'],row['score']) if row['country'] == 'China': university.append('🇨🇳 {}'.format(re.sub( '(.*?)','',row['university']))) else: university.append(re.sub('(.*?)', '',row['university'])) score.append(opts.BarItem(name='', value=row['score'], tooltip_opts=opts.TooltipOpts(formatter=tjs))) bar = (Bar() .add_xaxis(university) .add_yaxis('', score, category_gap='30%') .set_global_opts(title_opts=opts.TitleOpts(title="2023年世界大学排名（QS） TOP 100", pos_left="center", title_textstyle_opts=opts.TextStyleOpts(font_size=20)), datazoom_opts=opts.DataZoomOpts(range_start=70, range_end=100, orient='vertical'), visualmap_opts=opts.VisualMapOpts(is_show=False, max_=100, min_=60, dimension=0, range_color=['#00FFFF', '#FF7F50']), legend_opts=opts.LegendOpts(is_show=False), xaxis_opts=opts.AxisOpts(is_show=False, is_scale=True), yaxis_opts=opts.AxisOpts(axistick_opts=opts.AxisTickOpts(is_show=False), axisline_opts=opts.AxisLineOpts(is_show=False), axislabel_opts=opts.LabelOpts(font_size=12))) .set_series_opts(label_opts=opts.LabelOpts(is_show=True, position='right', font_style='italic'), itemstyle_opts={"normal": { "barBorderRadius": [30, 30, 30, 30], 'shadowBlur': 10, 'shadowColor': 'rgba(120, 36, 50, 0.5)', 'shadowOffsetY': 5, } } ).reversal_axis()) grid = ( Grid(init_opts=opts.InitOpts(theme='purple-passion', width='1000px', height='1200px')) .add(bar, grid_opts=opts.GridOpts(pos_right='10%', pos_left='20%')) ) grid.render('3.html')

评论收藏

内容反馈