### 1.爬虫的目的
爬取医药网站的数据,丰富我们的知识图谱。
### 2.爬虫程序的实现过程
#### 技术:
1)HTTP 库:如 Requests、urllib 等,能够模拟浏览器发送 HTTP 请求,获取页面内容。
2)解析库:lxml ,能够解析 HTML 或 XML 格式的页面内容,提取需要的信息。
3)XPath:了解 XPath 的语法和使用方法,能够进行页面元素的定位和抽取。
4)正则表达式:能够使用正则表达式进行文本匹配和抽取,对于抓取数据非常有帮助。
5)数据库:了解关系型数据库 MySQL 和 NoSQL 数据库 MongoDB 等数据存储方式,能够进行数据存储和管理。
6)编程语言:能够熟练使用至少一种编程语言,如 Python、Java、Ruby、JavaScript 等,进行数据抓取和处理。
#### 工具
python,urllib.request,lxml,MongoDB,MySQL
#### 爬取的网站
https://jib.xywy.com/il_sii/gaishu/124.htm 寻医问药网
![img.png](imgs/img.png)
![img_1.png](imgs/img_1.png)
#### 技术难点
1.Xpath
2.网络波动,页面返回的问题
3.分布式爬虫,大规模数据的爬取会用到
### 3.爬取的数据
#### 数据:
![img_2.png](imgs/img_2.png)
![img_3.png](imgs/img_3.png)
### 4.分析和处理爬取的数据
#### 数据的清洗和整理
1)得到的疾病有11000条数据
2)经过初步清除之后,有疾病1w条,症状7100条
disease(疾病)-symptom(症状)
去除一个字的症状
AC自动机
3)数据补充
39健康网,博禾医生网
#### 问答数据情况:
1)数据量有8w
2)为后续任务提供数据支持
### 5.目录结构
│ data_spider.py 寻医问药网疾病爬虫
│ json文件读取问题.py
│ qa_39.py 39健康网问答数据爬虫
│ qa_xywy.py 寻医问药网问答数据爬虫
│ readme.md
│ 数据情况.txt
│
├─processed_data 处理之后的数据
│ disease.txt 疾病
│ disease_symptom_data.json 疾病——症状对应
│ symptom.txt 症状
│
└─raw_data 原始数据
data.json 寻医问药网疾病数据
qa_39_data.json 39健康网问答数据
qa_xywy_data.json 寻医问药网问答数据
文件名称|内容|数量
:----|:-----:|-----:
data.json|知识图谱全部数据|1w
disease_symptom_data.json|疾病_症状数据|9700
disease.txt|所有疾病名称|9700
symptom.txt|所有症状名称|7000
qa_xywy_data.json|寻医问药网 问答数据|6w
qa_39_data.json|39健康网 问答数据|1.5w
data.json保存的字段| |
:----|--------|
疾病基本信息||
1| 疾病名称 |
2| 疾病描述 |
3| 科室 |
4| 是否医保疾病 |
5| 患病比例 |
6| 易感人群 |
7| 传染方式 |
8| 并发症 |
9| 治疗方式 |
10| 治疗周期 |
11| 治愈率 |
12| 常用药品 |
13| 治疗费用 |
发病原因|
预防方法|
症状信息|
检查信息|
食物|
1| 宜吃食品 |
2| 忌吃食品 |
3| 推荐食谱 |
治疗药品|
没有合适的资源?快使用搜索试试~ 我知道了~
爬虫_QQ浏览器压缩包.zip
共26个文件
xml:7个
py:4个
png:4个
需积分: 0 1 下载量 38 浏览量
2023-09-20
14:26:45
上传
评论
收藏 41.55MB ZIP 举报
温馨提示
爬虫_QQ浏览器压缩包.zip
资源推荐
资源详情
资源评论
收起资源包目录
爬虫_QQ浏览器压缩包.zip (26个子文件)
爬虫
raw_data
qa_xywy_data.json 45.92MB
qa_39_data.json 8.36MB
data.json 64.51MB
readme.md 3KB
json文件读取问题.py 1KB
.idea
.name 14B
vcs.xml 172B
workspace.xml 3KB
misc.xml 188B
spiderpro.iml 291B
inspectionProfiles
Project_Default.xml 577B
profiles_settings.xml 174B
modules.xml 277B
deployment.xml 1KB
.gitignore 184B
qa_39.py 7KB
qa_xywy.py 6KB
processed_data
disease.txt 197KB
symptom.txt 120KB
disease_symptom_data.json 2.08MB
data_spider.py 12KB
imgs
img_3.png 27KB
img.png 167KB
img_1.png 131KB
img_2.png 189KB
worklog.txt 189B
共 26 条
- 1
资源评论
m0_74070741
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功