#!/usr/bin/env python
# coding: utf-8
# <h1>Table of Contents<span class="tocSkip"></span></h1>
# <div class="toc"><ul class="toc-item"><li><span><a href="#项目介绍" data-toc-modified-id="项目介绍-1"><span class="toc-item-num">1 </span>项目介绍</a></span></li><li><span><a href="#导入库" data-toc-modified-id="导入库-2"><span class="toc-item-num">2 </span>导入库</a></span></li><li><span><a href="#读取文件考研历年国家分数线" data-toc-modified-id="读取文件考研历年国家分数线-3"><span class="toc-item-num">3 </span>读取文件考研历年国家分数线</a></span></li><li><span><a href="#处理重复值和空值" data-toc-modified-id="处理重复值和空值-4"><span class="toc-item-num">4 </span>处理重复值和空值</a></span></li><li><span><a href="#删除不需要的列" data-toc-modified-id="删除不需要的列-5"><span class="toc-item-num">5 </span>删除不需要的列</a></span></li><li><span><a href="#替换删除特殊字符" data-toc-modified-id="替换删除特殊字符-6"><span class="toc-item-num">6 </span>替换删除特殊字符</a></span></li><li><span><a href="#单独筛选出2020年考研信息" data-toc-modified-id="单独筛选出2020年考研信息-7"><span class="toc-item-num">7 </span>单独筛选出2020年考研信息</a></span></li><li><span><a href="#统计专业" data-toc-modified-id="统计专业-8"><span class="toc-item-num">8 </span>统计专业</a></span></li><li><span><a href="#分组归纳学校对应的专业数(专业可能是重复值)" data-toc-modified-id="分组归纳学校对应的专业数(专业可能是重复值)-9"><span class="toc-item-num">9 </span>分组归纳学校对应的专业数(专业可能是重复值)</a></span></li><li><span><a href="#转化考研专业总分特殊值" data-toc-modified-id="转化考研专业总分特殊值-10"><span class="toc-item-num">10 </span>转化考研专业总分特殊值</a></span></li><li><span><a href="#分组归纳各专业的最高分,最低分,平均分" data-toc-modified-id="分组归纳各专业的最高分,最低分,平均分-11"><span class="toc-item-num">11 </span>分组归纳各专业的最高分,最低分,平均分</a></span></li><li><span><a href="#绘制各专业分数的柱状图" data-toc-modified-id="绘制各专业分数的柱状图-12"><span class="toc-item-num">12 </span>绘制各专业分数的柱状图</a></span></li><li><span><a href="#绘制2020年考研专业Top50" data-toc-modified-id="绘制2020年考研专业Top50-13"><span class="toc-item-num">13 </span>绘制2020年考研专业Top50</a></span></li><li><span><a href="#绘制关键词云图" data-toc-modified-id="绘制关键词云图-14"><span class="toc-item-num">14 </span>绘制关键词云图</a></span></li><li><span><a href="#读取2021年考研调剂信息" data-toc-modified-id="读取2021年考研调剂信息-15"><span class="toc-item-num">15 </span>读取2021年考研调剂信息</a></span></li><li><span><a href="#转换学校属性类别" data-toc-modified-id="转换学校属性类别-16"><span class="toc-item-num">16 </span>转换学校属性类别</a></span></li><li><span><a href="#删除重复值" data-toc-modified-id="删除重复值-17"><span class="toc-item-num">17 </span>删除重复值</a></span></li><li><span><a href="#拼接调剂信息" data-toc-modified-id="拼接调剂信息-18"><span class="toc-item-num">18 </span>拼接调剂信息</a></span></li><li><span><a href="#查看缺失数据" data-toc-modified-id="查看缺失数据-19"><span class="toc-item-num">19 </span>查看缺失数据</a></span></li><li><span><a href="#发布时间对应的发布频次" data-toc-modified-id="发布时间对应的发布频次-20"><span class="toc-item-num">20 </span>发布时间对应的发布频次</a></span></li><li><span><a href="#调剂信息发布时间走势图" data-toc-modified-id="调剂信息发布时间走势图-21"><span class="toc-item-num">21 </span>调剂信息发布时间走势图</a></span><ul class="toc-item"><li><span><a href="#由于考研成绩是在2月底发布的,所以调剂发布学校也随着增多" data-toc-modified-id="由于考研成绩是在2月底发布的,所以调剂发布学校也随着增多-21.1"><span class="toc-item-num">21.1 </span>由于考研成绩是在2月底发布的,所以调剂发布学校也随着增多</a></span></li></ul></li><li><span><a href="#绘制学校类别饼图" data-toc-modified-id="绘制学校类别饼图-22"><span class="toc-item-num">22 </span>绘制学校类别饼图</a></span></li><li><span><a href="#调剂信息发布数省份分布" data-toc-modified-id="调剂信息发布数省份分布-23"><span class="toc-item-num">23 </span>调剂信息发布数省份分布</a></span></li></ul></div>
# ### 项目介绍
# * 数据来源 IT:2021年考研调剂信息 通过考研网站 + 百度百科 整理获取
# * 可视化主要使用 pyecharts
#
# ### 导入库
# In[1]:
import json
import requests
import pandas as pd
import pyecharts.options as opts
from pyecharts.charts import *
from pyecharts.globals import ThemeType#设定主题
from pyecharts.commons.utils import JsCode
import chardet
import jieba
import numpy as np
# ### 读取文件考研历年国家分数线
# In[2]:
df1 = pd.read_csv(r'./考研历年国家分数线(1).csv')
df2 = pd.read_csv(r'./考研历年国家分数线(2).csv')
df3 = pd.read_csv(r'./考研历年国家分数线(3).csv')
df4 = pd.read_csv(r'./考研历年国家分数线(4).csv')
df5 = pd.read_csv(r'./考研历年国家分数线(5).csv')
df6 = pd.read_csv(r'./考研历年国家分数线(6).csv')
df_all= pd.concat([df1,df2,df3,df4,df5,df6])
df_all.info()
# In[3]:
print(df_all.shape)
# ### 处理重复值和空值
# In[4]:
print('重复值:' ,df_all.duplicated().sum())
print('空值: \n',df_all.isnull().sum())
# In[5]:
df_all = df_all.drop_duplicates()
df_all = df_all.dropna(axis=0,how='any')
# In[6]:
df_all.info()
print(df_all.shape)
# In[7]:
print('重复值:' ,df_all.duplicated().sum())
print('空值: \n',df_all.isnull().sum())
# ### 删除不需要的列
# In[8]:
df_all = df_all.drop(labels=['学校名称_链接','院系名称_链接','专业名称_链接'],axis=1)
df_all.head(2)
# ### 替换删除特殊字符
# In[9]:
df_all['专业名称'] = df_all['专业名称'].str.replace('\(专业学位\)','')
df_all['专业名称'] = df_all['专业名称'].str.replace('★','')
df_all.head(2)
# ### 单独筛选出2020年考研信息
# In[10]:
data_2020 = df_all[df_all['年份'] == 2020]
data_2020.info()
# ### 统计专业
# In[11]:
data_2020['专业名称'].value_counts()[:100]
# ### 分组归纳学校对应的专业数(专业可能是重复值)
# In[12]:
data_2020.groupby('学校名称')['专业名称'].count().sort_values(ascending = False)[:100]
# ### 转化考研专业总分特殊值
# In[13]:
def tranform_num(x):
if '-' in x:
return 0
else:
return x
data_2020['总分'] = data_2020['总分'].apply(lambda x:tranform_num(x) )
data_2020['总分'] = data_2020['总分'].astype('int')
# ### 分组归纳各专业的最高分,最低分,平均分
# In[14]:
data_1 = data_2020.groupby('专业名称')['总分'].agg([np.mean, np.max,np.min])
data_1['mean'] = data_1['mean'].astype('int')
data_1 = data_1.sort_values(by=['mean'],ascending=False)[:50]
data_1
data_1.columns = ['mean','amax','amin']
# ### 绘制各专业分数的柱状图
# In[15]:
bar = Bar(init_opts=opts.InitOpts(theme='light',
width='1000px',
height='1200px')
)
bar.add_xaxis(data_1.index.tolist
没有合适的资源?快使用搜索试试~ 我知道了~
教育-历年考研分数线数据可视化-约500行(pyecharts可视化、词云图).zip
共15个文件
csv:6个
xlsx:2个
png:2个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 1 下载量 8 浏览量
2024-04-21
22:04:53
上传
评论
收藏 9.13MB ZIP 举报
温馨提示
Python数据分析可视化预测项目例子实例源码代码实战案例带数据集
资源推荐
资源详情
资源评论
收起资源包目录
教育-历年考研分数线数据可视化-约500行(pyecharts可视化、词云图).zip (15个子文件)
历年考研分数线数据可视化.html 1.61MB
词云图1.png 436KB
大学信息2021new.xlsx 33KB
考研历年国家分数线(2).csv 4.22MB
考研历年国家分数线(4).csv 4.25MB
考研调剂数据-3.08.xlsx 46KB
词云图2.png 208KB
历年考研分数线数据可视化.ipynb 1.02MB
考研历年国家分数线(5).csv 4.25MB
历年考研分数线数据可视化.py 22KB
考研历年国家分数线(1).csv 4.24MB
SimHei.ttf 9.58MB
考研历年国家分数线(6).csv 185KB
.ipynb_checkpoints
历年考研分数线数据可视化-checkpoint.ipynb 1.02MB
考研历年国家分数线(3).csv 4.25MB
共 15 条
- 1
资源评论
- T_i_n_a_2024-05-05资源不错,对我启发很大,获得了新的灵感,受益匪浅。
通信瓦工
- 粉丝: 309
- 资源: 5113
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功