## WiNGPT2
WiNGPT是一个医疗垂直领域大模型,旨在将专业的医学知识、医疗信息、数据融会贯通,为医疗行业提供智能化的医疗问答、诊断支持和医学知识等信息服务,提高诊疗效率和医疗服务质量。
## 更新日志
[2023/12/20] 新增用户微信群二维码,有效期到12月27日,扫码进群。
[2023/12/18] 发布卫宁健康医疗模型测评方案 WiNEval-MCKQuiz的评测结果。
[2023/12/12] 开源 WiNGPT2 14B模型权重: [🤗](https://huggingface.co/winninghealth/WiNGPT2-14B-Base)WiNGPT2-14B-Base 和 [🤗](https://huggingface.co/winninghealth/WiNGPT2-14B-Chat)WiNGPT2-14B-Chat。
[2023/11/02] [34B模型平台测试](https://wingpt.winning.com.cn/) 和 [欢迎加入微信讨论群](https://github.com/winninghealth/WiNGPT2/blob/main/assets/WiNGPT_GROUP.JPG)
[2023/10/13] 更新一个简单的[Chatbot示例](#部署),可以进行简单的多轮对话。
[2023/09/26] 开源 WiNGPT2 与7B模型权重: [🤗](https://huggingface.co/winninghealth/WiNGPT2-7B-Base)WiNGPT2-7B-Base 和 [🤗](https://huggingface.co/winninghealth/WiNGPT2-7B-Chat)WiNGPT2-7B-Chat。
## 目录
- [介绍](#介绍)
- [特点](#特点)
- [如何使用](#如何使用)
- [训练数据](#训练数据)
- [模型卡](#模型卡)
- [评测](#评测)
- [应用](#应用)
- [局限性与免责声明](#局限性与免责声明)
- [许可证](#许可证)
- [参考资料](#参考资料)
- [联系我们](#联系我们)
## 介绍
WiNGPT(卫宁健康医疗语言大模型,以下简称WiNGPT)的研发和训练工作开始于2023年1月。
3月,卫宁健康人工智能实验室已完成了WiNGPT1可行性验证并开始内测。WiNGPT1采用通用的GPT架构、62亿参数,实现了从预训练到微调的全过程自研。
今年5月,WiNGPT1训练的数据量已达到9720项药品知识、 18个药品类型、7200余项疾病知识、 2800余项检查检验知识、53本书籍知识、1100余份指南文档,总训练Token数达37亿。
7月,WiNGPT升级到7B并采用最新的模型架构,新增检索式增强生成能力,同时开始了13B模型的训练和行业邀测。
9月,WiNGPT迎来最新版本迭代,推出了全新的WiNGPT2,新版本可以被轻松扩展和个性化并用于下游各种应用场景。
12月,WiNGPT3上线,具备图文聊天功能的大语言模型。
为了回馈开源社区我们尝试开源了WiNGPT2-7B/14B版本。我们的初衷是希望通过更多的开源项目加速医疗语言大模型技术与行业的共同发展,最终惠及我们人类健康。
## 特点
- 核心功能
- **医学知识问答**:可以回答关于医学、健康、疾病等方面的问题,包括但不限于症状、治疗、药物、预防、检查等。
- **自然语言理解**:理解医学术语、病历等医疗文本信息,提供关键信息抽取和归类
- **多轮对话**:可扮演各种医疗专业角色如医生与用户进行对话,根据上下文提供更加准确的答案。
- **多任务支持**:支持32项医疗任务,八大医疗场景18个子场景。
- 模型架构
- 基于Transformer的70亿参数规模大语言模型, 采用RoPE相对位置编码、SwiGLU激活函数、RMSNorm,训练采用Qwen-7b<sup>1</sup>作为基础预训练模型。
- 主要特点
- 高准确度:基于大规模医疗语料库训练,具有较高的准确率和较低的误诊可能性。
- 场景导向:针对不同的医疗场景和真实需求进行专门优化和定制,更好的服务应用落地。
- 迭代优化:持续搜集和学习最新的医学研究,不断提高模型性能和系统功能。
## 如何使用
### 下载
🤗下载地址:
[WiNGPT2-7B-Base](https://huggingface.co/winninghealth/WiNGPT2-7B-Base)
[WiNGPT2-7B-Chat](https://huggingface.co/winninghealth/WiNGPT2-7B-Chat)
[WiNGPT2-14B-Base](https://huggingface.co/winninghealth/WiNGPT2-14B-Base)
[WiNGPT2-14B-Chat](https://huggingface.co/winninghealth/WiNGPT2-14B-Chat)
### 推理
```python
from transformers import AutoModelForCausalLM, AutoTokenizer
model_path = "WiNGPT2-7B-Chat"
device = "cuda"
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True).to(device)
model = model.eval()
text = 'User: WiNGPT, 你好<|endoftext|>\n Assistant:'
inputs = tokenizer.encode(text, return_tensors="pt").to(device)
outputs = model.generate(inputs, repetition_penalty=1.1, max_new_tokens=1024)
response = tokenizer.decode(outputs[0])
print(response)
## 输出结果:你好!今天我能为你做些什么?<|endoftext|>
```
### 提示
WiNGPT2-7B-Chat使用了自定义的提示格式:
用户角色:User/Assistant
提示模板:User:[此处有空格]WiNGPT, 你好<|endoftext|>\n[此处有空格]Assistant:;**多轮对话**按此模板进行拼接,例如:
```
"User: WiNGPT, 你好<|endoftext|>\n Assistant:你好!今天我能为你做些什么?<|endoftext|>\n User: 你是谁?<|endoftext|>\n Assistant:"
```
解码时推荐使用repetition_penalty=1.1 [greedy search]
### 部署
简单的chatbot部署示例:
```
python demo.py
```
注意:需要安装gradio
### 企业服务
[通过WiNGPT测试平台申请密钥或与我们取得联系](https://wingpt.winning.com.cn/)
## 训练数据
- 数据总览
- <details><summary>总数据量:预训练数据约20G,指令数据约50万条,数据分布情况如下图所示。</summary></br><img src="./assets/WiNGPT2-PT.png" alt="WiNGPT2预训练数据" width="48%" /> <img src="./assets/WiNGPT2-SFT.png" alt="WiNGPT2指令微调数据" width="48%" /></details>
- 医疗专业数据
| 来源 | 类型 | 数量 |
| ---------------- | ------ | ------------------- |
| 药品说明书 | 知识库 | 15000 条 |
| 多病种知识库 | 知识库 | 9720 项 |
| 医疗专业书籍 | 教材 | 300 本 |
| 临床路径知识库 | 知识库 | 1400 条 |
| 检查检验知识 | 知识库 | 110 万条 |
| 多学科临床指南 | 书籍 | 18 个科室共 1100 份 |
| 医疗知识图谱 | 知识库 | 256 万三元组 |
| 人工标注数据集 | 指令 | 5 万条 |
| 医学资格考试试题 | 试题 | 30 万条 |
| 医疗病例、报告 | 知识库 | 100 万条 |
- 其他公开数据
| 来源 | 类型 | 数量 |
| -------------------- | ------ | -------- |
| 医学科普书籍 | 书籍 | 500 本 |
| 其他多学科书籍 | 书籍 | 1000 本 |
| 代码 | 指令 | 20 万条 |
| 通用类试题 | 试题 | 300 万条 |
| 多种自然语言处理任务 | 指令 | 90 万条 |
| 互联网文本 | 互联网 | 300 万条 |
| 医疗问答、对话 | 指令 | 500 万条 |
- 继续预训练
- 扩充模型的医疗知识库:预训练数据+部分指令数据。
- 指令微调
- 从书籍、指南、病例、医疗报告、知识图谱等数据中自动化构建医疗指令集。
- 人工标注指令集,数据来源包括:电子病历系统、护理病历系统、PACS系统、临床科研系统、手术管理系统、公共卫生场景、医务管理场景以及工具助手场景。
- 采用 FastChat<sup>2</sup>、Self-Instruct<sup>3</sup>、Evol-Instruct<sup>4</sup> 等方案,对指令集进行扩展以及丰富指令集多样化形式。
- 数据工程
- 数据分类:根据训练阶段和任务场景进行分类。
- 数据清洗:去除无关信息,更正数据中的拼写错误,提取关键信息以及去隐私处理。
- 数据去重:采用 embedding 方法剔除重复数据。
- 数据采样:根据数据集的质量与分布需求进行�
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【项目资源】: 包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。 包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】: 所有源码都经过严格测试,可以直接运行。 功能在确认正常工作后才上传。 【适用人群】: 适用于希望学习不同技术领域的小白或进阶学习者。 可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】: 项目具有较高的学习借鉴价值,也可直接拿来修改复刻。 对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】: 有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 鼓励下载和使用,并欢迎大家互相学习,共同进步。
资源推荐
资源详情
资源评论
收起资源包目录
WiNGPT是一个基于GPT的医疗垂直领域大模型,旨在将专业的医学知识、医疗信息、数据融会贯通,为医疗行业提供智能化.zip (11个子文件)
资料总结
assets
WiNGPT2-PT.png 119KB
struct_output.png 879KB
chestxr_analyzer.png 104KB
medicine_db.png 87KB
WiNGPT_GROUP.JPG 194KB
WiNGPT2-SFT.png 110KB
wechatgroup.jpg 163KB
客观题.png 93KB
LICENSE 11KB
demo.py 1KB
README.md 13KB
共 11 条
- 1
资源评论
妄北y
- 粉丝: 1w+
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功