## 1.本项目基于Python作为爬虫技术,使用flask作为web项目的开发框架。
## 2.本项目预期实现的功能有:
### 2.1简单的web页面展示,将需要搜索的结果使用词云,饼状图,柱状图以及表格这四种形式表现出来。
## 2.2输入关键字后搜索后能根据搜索结果智能推荐最合适的职位。
### 2.3支持多条件复杂查询,结合行业,所选城市进行综合查询。
### 2.4通过手动添加新词进行过滤词云内容达到更加精确人性化的结果。
## 3.使用的技术有:
### 3.1前端
#### 3.1.1页面:HTML+CSS+JavaScript+JQuery
#### 3.1.2前端框架:boostrap
#### 3.1.3前端插件: echarts(用于将结果渲染程柱状图和饼状图)+dispicker(显示省市区便于选择地区) + smart-zoom(将词云图进行放大)+boostrap-Table(对爬取的职位信息展示在表格中)
### 3.2后端
#### 3.2.1 基于flask的web框架
#### 3.2.2jieba用于处理分析搜索到的岗位要求以及描述然后利用wordcloud进行生成词云
#### 3.2.3使用BeautifulSoup对获取的网站源代码进行提取想要的内容。
#### 3.2.4自己手写实现返回的数据类型。
#### 3.2.5使用多线程进行爬取数据,每页数据40个职位,共十页,使用十个线程进行同时爬取缩短爬取时间,但是同时对计算机的性能提出了更高的要求。
## 4.目前实现的功能
#### 4.1通过关键字搜索获取文本后经过处理生成词云然后在页面中显示出词云以及对应数据的柱状图和饼状图直观看到不同要求的差异。
#### 4.2已在页面中写好省市区的视图页面但是查询**<u>尚未支持所有地区查询(尚未匹配好省市区的编码)目前只支持十二个主要大城市查询,具体在static/json/cityMapingJson.json文件中有。后期可以手动添加新的城市以及对应的编码即可,不需要修改代码即可动态加载。**</u>
#### 4.3本项目的图片URL,文件的URL,词云图片的URL,过滤词组,添加的新词组,每个爬取标签的唯一选择器selector文本均已经写成json格式的配置文件放在项目中。当项目启动时会自动加载这些数据,并且支持手动实时更新这些json配置信息的内容而对不需要重新启动项目。比如如要进行更加精确的过滤词汇,只需要在fileAndImgPro.json中配置**ignoreWords**和newWords的对应值即可。
#### 4.4目前已实现将每个工作的具体信息爬取封装好并以json格式返回给前端页面用于Table表格的渲染。
#### 4.5对工作第一个版本尚未进行精准的文本过滤,目前只是很笨拙的分析提取。更精确的结果敬请期待下一个版本。
## 5.配置文件
### 5.1urlSettingPro.json的配置
```
{
"url": "https://www.liepin.com/",
"searchUrl":"https://www.liepin.com/zhaopin/",
"jobInfoLinkDiv": {"name1":".job-info h3 a"},
"jobNameDiv": {"name1": "div.title-info > h1"},
"jobCompanyNameDiv": {"name1": "div.title-info > h3 a"},
"jobSalaryDiv": {
"name1": ".job-item-title",
"name2": ".job-main-title",
"name3": ".job-title-left"
},
"jobCityDiv": {
"name1":"div.job-title-left > p.basic-infor > span > a"
},
"jobEduDiv": {
"name1":"div.job-title-left > div > span:nth-of-type(1)"
},
"jobExperienceTimeDiv": {
"name1":"div.job-title-left > div > span:nth-of-type(2)"
},
"jobCodeNameDiv": {
"name1":"div.job-title-left > div > span:nth-of-type(3)"
},
"jobAgeDiv": {
"name1":"div.job-title-left > div > span:nth-of-type(4)"
},
"jobDesDiv": {
"name1":"div.job-item.main-message.job-description > div",
"name2": "div.job-main.job-description.main-message > div"
},
"pageCount": 10,
"pageSize":80
}
```
配置项的含义:
```
"url":需要爬取的网站首页URL。
“searchUrl”:具体搜索职位时需要发送请求的目标URL
"jobInfoLinkDiv":job详细信息的链接的selector。
"jobNameDiv":工作名称标签的selector,由于是动态的所以可能导致不同的job的信息源代码中jobName标签的selector有对个,那么就配置多项。如下内容均是一样。
"jobCompanyNameDiv": {"name1": "div.title-info > h3 a"},
"jobSalaryDiv": 源码中工作薪水的选择器,有多个就配置多个
"jobQualificationsDiv":源码中多个要求的标签的选择器
"jobDesDiv": 源码中工作描述或者要求的选择器
"jobAgeDiv":源码中年龄标签的选择器。
"pageCount": 网站中工作职位的页数。猎聘网默认是十页,
"pageSize":默认每页的数据
```
比如:在某一个工作中,
![image-20200929001712586](readMeImages/image-2.png)
jobDesDiv的标签的selector在源代码中的位置为:
![image-20200929001449142](readMeImages/image-3.png)
“div.job-main.job-description.main-message > div”能够唯一确定其位置。
但是在另一个工作页面中![image-20200929001833201](readMeImages/image-4.png)
它在源码中的选择器selector就是另外一个了:
![image-20200929001814181](readMeImages/image-5.png)
因此jobDesDiv就有两个选择器selector,那么它的配置方法就是:
"jobDesDiv": {
"name1":"div.job-item.main-message.job-description > div",
"name2": "div.job-main.job-description.main-message > div"
}
### 5.2fileAndImgPro.json的配置
```
{
"wordCloudImg_small":"static/img/small.jpg",
"wordCloudBgImg":"static/img/wordCloudBg.png",
"ignoreWords":"[\",\"\".\"\"。\"\"?\"\"?\"\"’\"\"‘\"\"'\"\"”\"\"“\"\"【\"\"】\"\"{\"\"}\"\"{\"\"}\"\":\"\":\"\"、\"\"任职要求\"\"任职要求1\"\"职位描述\"\"职位描述1\"\"岗位职责\"\"工作职责\"\\d]",
"textFilePathDir": "static/file",
"newWords": "[{\"word\":\"天天学习\",\"freq\":4},{\"word\":\"机器学习\", \"freq\":3},{\"word\":\"数据挖掘\",\"freq\":5},{\"word\":\"熟悉算法\",\"freq\":4}]"
}
```
**wordCloudImg_small**:前端页面中词云图片的URL地址
**wordCloudBgImg**:在生成词云时的背景图片的URL
**ignoreWords**:在岗位描述或者岗位要求职责中需要过滤的词语或符号,该表达式必须是 **<u>正则表达式</u>**
newWords:在jieba库进行精确拆分提取文本内容得到每个词语的出现频率时,手动添加新的词语使得jieba在分析时识别出文本中含有的这个词语不被拆分。使用json数据格式进行添加,其中,{“word”: 词语,"freq": 正整数值}是一个json对象,word对应的是添加的词语,freq对应的是出现的频率。
**textFilePathDir:**多线程爬取数据时,爬取数据时每个线程爬出的数据保存到一个文件中,然后这个文件保存到该文件夹下;单线程爬取数据时所有的工作对象信息保存到一个json文件中去,岗位要求则保存到一个txt文件中去。
### 5.3文件命名
#### 5.3.1单线程时生成的文件命名为:
保存工作对象信息的json文件为名为: “搜索文本_区域编码.json",岗位要求信息的txt文件名为:“搜索文本 _ 区域编码 .txt”。比如搜索文本为 “算法工程师”,地区为北京市,其对应的区域编码为010,则会生成两个文件
“算法工程师_010.json”和“算法工程师 _ 010.txt”.其它依次类似。
#### 5.3.2多线程时生成的文件命名为:
使用多线程爬取数据时是分为十页,每一页数据都用一个线程来爬取。每一页的数据中工作信息对象集合保存到一个json文件中去,其格式为 “搜索文本_区域编码 _ 页码.json",工作的要求和描述保存到一个txt文件中去,其格式为“搜索文本 _ 区域编码 _ 页码.txt".比如搜索文本为 “算法工程师”,地区为北京市,其对应的区域编码为010,则会生成十个json文件,十个txt文件�
没有合适的资源?快使用搜索试试~ 我知道了~
毕设 基于Python的flask网络爬虫web项目.zip
共110个文件
json:21个
png:21个
py:21个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 47 浏览量
2023-10-24
10:10:01
上传
评论
收藏 13.13MB ZIP 举报
温馨提示
matlab算法,毕设、课设程序,全部源码均已进行严格测试,可以直接运行! matlab算法,毕设、课设程序,全部源码均已进行严格测试,可以直接运行! matlab算法,毕设、课设程序,全部源码均已进行严格测试,可以直接运行! matlab算法,毕设、课设程序,全部源码均已进行严格测试,可以直接运行! matlab算法,毕设、课设程序,全部源码均已进行严格测试,可以直接运行! matlab算法,毕设、课设程序,全部源码均已进行严格测试,可以直接运行! matlab算法,毕设、课设程序,全部源码均已进行严格测试,可以直接运行! matlab算法,毕设、课设程序,全部源码均已进行严格测试,可以直接运行! matlab算法,毕设、课设程序,全部源码均已进行严格测试,可以直接运行! matlab算法,毕设、课设程序,全部源码均已进行严格测试,可以直接运行! matlab算法,毕设、课设程序,全部源码均已进行严格测试,可以直接运行! matlab算法,毕设、课设程序,全部源码均已进行严格测试,可以直接运行! matlab算法,毕设、课设程序,全部源码均已进行严格测试,可以直接运行! matlab算法,毕设、课设程序,全部源码均已进行严格测试,可以直接运行!
资源推荐
资源详情
资源评论
收起资源包目录
毕设 基于Python的flask网络爬虫web项目.zip (110个子文件)
bootstrap.min.css 118KB
bootstrap-table.min.css 8KB
ekko-lightbox.css 7KB
styles.css 2KB
Chart.min.css 521B
searchBar.css 500B
index.html 13KB
small.jpg 118KB
bg.jpg 62KB
echarts.min.js 762KB
bootstrap-table.min.js 108KB
jquery.min.js 87KB
distpicker.min.js 72KB
bootstrap.min.js 59KB
ekko-lightbox.min.js 15KB
e-smart-zoom-jquery.min.js 15KB
spin.min.js 4KB
人工智能_010.json 72KB
java_010.json 61KB
人工智能_.json 51KB
人工智能_030.json 42KB
java_030.json 37KB
数据挖掘_.json 33KB
java_.json 18KB
数据挖掘_010.json 15KB
数据挖掘_050020.json 13KB
算法设计_030.json 11KB
数据挖掘_050090.json 8KB
数据挖掘_040.json 7KB
算法设计_010.json 5KB
算法设计_210040.json 4KB
数据挖掘_030.json 2KB
数据挖掘_210040.json 2KB
urlSettingPro.json 2KB
cityMapingJson.json 2KB
urlSettingPro.json 630B
fileAndImgPro.json 553B
package.json 81B
README.md 12KB
ss.md 37B
AdobeHeitiStd-Regular.otf 11.7MB
image-6.png 384KB
bg.png 249KB
image-16.png 132KB
image-5.png 126KB
image-3.png 79KB
wordCloudBg.png 77KB
image-2.png 76KB
image-1.png 74KB
image-8.png 67KB
image-4.png 51KB
image-7.png 50KB
image-14.png 49KB
image-11.png 38KB
image-13.png 35KB
image-12.png 27KB
image-10.png 21KB
image-15.png 15KB
image-9.png 15KB
test.png 5KB
zoomIn.png 1009B
ZoomOut.png 987B
RequestService.py 11KB
beautifulSoup4Demo.py 8KB
JsonUtil.py 7KB
JobUtil.py 6KB
FileUtil.py 4KB
WordCloudUtil.py 3KB
test1.py 3KB
JobInfo.py 2KB
ThreadUtil.py 2KB
testWordCloud.py 2KB
test2.py 994B
ImageUtil.py 964B
test3.py 957B
RequestController.py 897B
testThread.py 538B
WordCouldTest.py 380B
testStrFormat.py 292B
testUtil.py 245B
flaskTest.py 191B
testJsonFile.py 185B
testRe.py 0B
JsonUtil.cpython-37.pyc 5KB
RequestService.cpython-37.pyc 4KB
JobInfo.cpython-37.pyc 4KB
JobUtil.cpython-37.pyc 3KB
FileUtil.cpython-37.pyc 3KB
WordCloudUtil.cpython-37.pyc 3KB
ThreadUtil.cpython-37.pyc 1KB
ImageUtil.cpython-37.pyc 1KB
RequestController.cpython-37.pyc 740B
flaskTest.cpython-37.pyc 402B
人工智能_010.txt 301KB
java_010.txt 236KB
人工智能_.txt 208KB
人工智能_030.txt 182KB
数据挖掘_.txt 145KB
java_030.txt 135KB
java_.txt 72KB
共 110 条
- 1
- 2
资源评论
天天501
- 粉丝: 614
- 资源: 5907
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功