1 开发环境
� 1 系统:Window 10 家庭中文版。
� 2 语言:Python(3.8.5)、MySQL(5.5)。
� 3 Python 所需的库:flask、pymysql、pandas、numpy、time、
datetime、requests、etree、jieba、re、json、decimal(没有的话 pip
或 conda 安装一下~)。
� 4 编辑器:jupyter Lab(jupyter notebook)、Pycharm(主用)、
Navicat。
2 运行说明
本项目下面有五个.py 的文件,下面分别阐述各个文件所对应的功能:
� 1 data_collection:分别从前程无忧网站和猎聘网上以关键词 job_name 爬
取相关数据。其中,前程无忧爬取的数据主要用来进行相关图表的绘
制;而猎聘网上主要为岗位要求文本数据,这部分进行词云的可视化展
示。
� 2 data_clean:对爬取到的数据进行清洗,包括去重去缺失值、变量重
编码、特征字段创造、文本分词等。
� 3 data_store:将清洗后的数据全部储存到 MySQL 中,其中对文本数据使
用 jieba.analyse 下的 extract_tags 来获取文本中的关键词和权重大小,方
便绘制词云。
� 4 utils:大多为 app 调用 MySQL 数据库中的工具类函数;同时,里面
也有引用 data_collection、data_clean、data_store 等函数,我们也主要
使用该工具类进行岗位数据的爬取、清洗和存储。