# KGQAMedicine
以疾病为中心的一定规模医药领域知识图谱的问答系统。
## 背景
本项目来源于github开源项目:[https://github.com/liuhuanyong/QASystemOnMedicalKG](https://github.com/liuhuanyong/QASystemOnMedicalKG).
在我阅读这个项目时(2022-7-17),该项目的start数目大4.2k,fork达1.6k。从数据上来看,大家是比较认可该项目的。
当然,原作者也是很厉害的,是中国科学院软件研究的所刘焕勇老师。
该项目从无到有搭建一个以疾病为中心的一定规模医药领域知识图谱,并以该知识图谱完成自动问答与分析服务。适合一个初学人员了解该类项目的pipline过程。
该项目立足医药领域,以垂直型医药网站为数据来源,以疾病为核心,构建起一个包含7类规模为4.4万的知识实体,11类规模约30万实体关系的知识图谱。 项目包括以下两部分的内容:
- 基于垂直网站数据的医药知识图谱构建
- 基于医药知识图谱的自动问答。
该项目的开发过程我已在CSDN书写了相关博客,感兴趣的可以前去了解:[
知识图谱](https://blog.csdn.net/meiqi0538/category_11901623.html)
## 程序运行
环境准备:可以有选择地常见一个虚拟环境,然后安装程序运行所需要的包:`pip install -r requirments.txt`
知识库准备:再将知识库数据导入到neo4j数据库之前,需要根据自己的情况,在KGQAMedicine中配置相关参数, 然后执行`python build_medicine_graph.py`将原项目爬取的数据导入到neo4j数据库中。
机器人启动:启动方式相对简单,直接执行`python chatbot.py`即可。
## 总结
总得来说,这个项目把使用知识图谱进行QA的一些流程介绍的比较清楚,但是在完成问答的过程中技术相对老旧,不过效果依然还不错。
为了能够进一步提升效果的话可以引入很多新技术。例如在问题分类环节可以引入基于深度学习的问题分类方法,在进行问题解析的时候,可以引入基于深度学习的NER实体识别方式以及进一步处进行实体对齐等,这里不作进一步展开。
除此之外,知识图谱在构建是需要结合业务需求,也就是在接到业务的时候以及对现有数据进行分析然后构建基于业务的schema,再通过自然语言处理相关技术进行知识图谱的构建。在原项目中,使用爬虫的方式进行数据爬取,其也可以使用NLP相关的基础,优化提取的数据等等。
雄关漫道真如铁,而今迈步重头越。刚入门,一个新的开始。往后和增加更多基于深度学习算法的内容到知识图谱的建设,应用等。
## 联系我
1. 我的github:[https://github.com/Htring](https://github.com/Htring)
2. 我的csdn:[科皮子菊](https://piqiandong.blog.csdn.net/)
3. 我订阅号:AIAS编程有道
![AIAS编程有道](https://s2.loli.net/2022/05/05/DS37LjhBQz2xyUJ.png)
4. 知乎:[皮乾东](https://www.zhihu.com/people/piqiandong)
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
知识图谱是一种结构化的知识表达形式,它以图形的方式组织和存储了大量实体(如人、地点、事件等)及其相互关系。在知识图谱中,实体作为节点,实体之间的各种语义关联则通过边进行连接,形成了一个庞大的数据网络。 知识图谱的核心价值在于其能够精确、直观地表示复杂世界中的知识,并支持高效的知识查询与推理。例如,在搜索引擎中,知识图谱可以提升搜索结果的相关性和准确性,为用户提供直接的答案而非仅仅是网页链接。同时,知识图谱还能支撑高级的人工智能应用,比如问答系统、推荐系统、决策支持等领域。 构建知识图谱的过程通常包括数据抽取、知识融合、实体识别、关系抽取等多个步骤,涉及到自然语言处理、机器学习、数据库技术等多种技术手段。知识图谱的不断完善有助于实现从海量信息中挖掘深层次、有价值的知识,从而推动人工智能向着更加理解人类世界的智慧方向发展。 总之,知识图谱是一个大规模、多领域、多源异构知识集成的载体,是实现智能化信息系统的基础工具和关键基础设施,对于提升信息检索质量、推动智能应用研发具有重要作用。
资源推荐
资源详情
资源评论
收起资源包目录
以疾病为中心的一定规模医药领域知识图谱的问答系统.zip (25个子文件)
SJT-code
answer_search
__init__.py 156B
raw_answer_search.py 6KB
build_medicine_graph.py 312B
data
config.ini 204B
medical.json 44.96MB
dict
food.txt 73KB
producer.txt 496KB
drug.txt 73KB
disease.txt 173KB
symptom.txt 97KB
deny.txt 227B
check.txt 70KB
department.txt 593B
question_parser
__init__.py 156B
rule_question_parser.py 8KB
utils
__init__.py 156B
config.py 1KB
get_data
__init__.py 156B
build_graph.py 11KB
spider_data.py 6KB
chatbot.py 1KB
requirments.txt 349B
question_classify
__init__.py 156B
rule_question_classify.py 10KB
README.md 3KB
共 25 条
- 1
资源评论
JJJ69
- 粉丝: 6269
- 资源: 5775
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功