【免费】项目说明与简略思路1资源-CSDN文库

需积分: 0 176 浏览量更新于2022-08-03 收藏 1.63MB PDF 举报

【项目说明与简略思路1】的描述涉及的是一个基于机器学习的研究项目，目标是解决临床病历打分的问题，具体来说，是从医疗执照考试的患者笔记中识别关键短语。这个任务对于提高医生诊断的准确性至关重要，因为它涉及到识别病人的症状、病史和可能的诊断。传统的评价方法依赖于医生的直接反馈，既耗时又耗费资源。因此，利用自然语言处理（NLP）技术自动化这一过程成为了一项挑战。研究背景中提到，美国医学执照考试的一部分是“第二步临床技能考试”，要求医生与标准化病人互动并记录病历。这些笔记随后由训练有素的医生评分，找出描述病例重要概念的特征。由于特征可能以多种形式表达，且可能存在模糊的否定词和需要组合不同文本片段的情况，自动评分系统需要具备理解和组合复杂信息的能力。研究方向聚焦于将问题转化为问答（QA）的形式，寻找笔记中反映特征的段落。考虑到有些特征可能由不连续的文本片段组成，团队计划采用对每个单词进行二分类的方法，而不是仅仅预测答案段落的开始和结束位置。预训练模型，特别是Transformer架构，如BERT和其变体，被广泛应用于NLP领域的微调，以降低解决问题的成本。在此项目中，DeBERTa-V3和PubMed模型将被用于进一步的研究，因为它们在处理自然语言理解和预训练效率方面表现出色。 DeBERTa是在BERT的基础上进行改进的，引入了自注意力解耦机制和增强的解码器，旨在提高模型的预训练效率和下游任务性能。它在诸如SuperGLUE这样的自然语言理解基准测试中已经超越了人类的表现。而PubMed则是专门针对医学领域的BERT变体，使用了医学相关的大量语料进行预训练，因此更适合处理医疗领域的文本数据。总结来看，这个项目的核心是运用机器学习，尤其是自然语言处理技术，来自动识别医学考试中的关键短语，减少人工评分的负担，提高医疗诊断的效率。研究将采用DeBERTa-V3和PubMed模型进行深入的探索和微调，以解决临床病历中复杂信息的提取和理解问题。通过这种方法，期望能够实现更精确、更高效地从医生的笔记中提取关键的医疗信息。

NBME – Score Clinical Patient Notes

⼀、研究背景与⽅向

1.1 研究背景

本次研究基于本⼩组参加的机器学习⽹站Kaggle的⽐赛，⽐赛题⽬为NBME - Score Clinical Patient Notes（给

临床病历打分），副标题为Identify Key Phrases in Patient Notes from Medical Licensing Exams（从执业资格

考试中识别患者笔记中的关键短语）。下⾯是该竞赛的背景描述：

当患者去看医⽣时，他们如何解释您的症状可以决定您的诊断是否准确。到他们获得许可时，医⽣已经进⾏了⼤

量练习，编写患者记录，记录患者的投诉历史、体检结果、可能的诊断和后续护理。学习和评估写病⼈笔记的技能

需要其他医⽣的反馈，这是⼀个耗时的过程，可以通过结合机器学习来改进。

直到最近，“第⼆步临床技能考试”成为美国医学执照考试（USMLE）的⼀个组成部分。该考试要求应试者与标准

化病⼈（受过训练的⼈，以描绘特定的临床病例）互动，并写下病⼈的笔记。训练有素的医⽣评分员随后⽤概述每

个病例的重要概念（被称为特征）的评分标准对病⼈笔记进⾏评分。在病历中发现的这种特征越多，分数就越⾼

（除其他因素外，还包括对考试的最终得分的贡献）。

然⽽，让医⽣对患者笔记考试进⾏评分需要⼤量时间以及⼈⼒和财⼒资源。已经创建了使⽤⾃然语⾔处理

（NLP）的⽅法来解决这个问题，但患者笔记的计算评分仍然具有挑战性，因为特征可能以多种⽅式表达。例如，

特征“对活动失去兴趣”可以表示为“不再打⽹球”。其他挑战包括需要通过组合多个⽂本⽚段来映射概念，或者存在

与关键基本要素如“缺乏其他甲状腺症状”相对应的模棱两可的否定词，例如“没有感冒不耐受、脱发、⼼悸或震

颤”。

本次研究的⽬标是开发⼀种⾃动识别每个患者笔记中相关特征的⽅法，特别关注从标准化患者访谈中捕获含特征

的信息。

1.2 研究⽅向

经过对题⽬的分析，本⼩组认为可以从⼀个⽅向切⼊，即可以认为该研究是⼀种QA（Question Answer）问

题，即给定患者笔记和特征，设计算法，提取笔记中反应特征的段落。⽬前针对QA问题，常⽤的⽅法有两种：第

⼀种是预测“答案”段落的开始（Start）和结束（End）位置，第⼆种是对原⽂中每个词（tocken）进⾏⼆分类，判

断其是否为“答案”段落的⼀部分。

根据现实问题，本⼩组发现，有时需要通过组合多个⽂本⽚段来映射概念，即反应特征的“答案”可能是⼏个不连

续的⽂本⽚段，所以我们认为对原⽂中每个词进⾏⼆分类的⽅法更为合适。

⽬前随着⼤规模预训练模型如transformer，bert，GPT等应⽤到NLP领域，⽤预训练模型作为初始参数并进⾏

微调（fine-tuning）的⽅式⼤⼤减⼩了问题解决的成本，因此本⽂也拟基于上述研究范式展开研究。

⼆、相关技术

注意⼒机制（Attention）由Bengio团队于2014年提出并⼴泛应⽤；2017年，Google团队基于Attention机制提

出了可训练神经⽹络Transformer，该神经⽹络仅由Attention及其相关的变体层以及前馈神经⽹络（Feed

Forward Neural Network）堆叠组成，该⽹络创新了Seq2Seq结构，并在机器翻译的BLEU中取得了SOTA效果；

基于Transformer的编码层，Google在2018年提出了Bidirectional Encoder Representation from

Transformers(BERT)，该模型进⼀步堆叠了Transformer的编码层，克服了GPT模型”“masked“的缺陷，并使⽤

了基于Books和Wikipedia的⼤规模语料，使得模型参数超过100M，在13个下游任务中取得了SOTA效果；同时，

剩余8页未读，继续阅读

资源推荐

资源评论

莫少儒

粉丝: 31
资源: 311

项目说明与简略思路1

互评_team6_软件设计说明书_问题清单1

计算机控制与接口技术作业评分表1

利用Python与OpenCV、PyAutoGUI实现摄像头隔空手势控制鼠标的技术实现方案-含代码

项目1

基于ssm+vue+web的志愿者管理系统.zip

年产30万吨硫磺制酸可行性研究报告.doc.docx

摄影行业_精美学习课件ppt

IGME330-Project1

cwnu_android_app_project

GJB438B-2009_软件设计说明

邮政_精美学习课件ppt

行业文档-设计装置-一种学生多功能笔袋.zip

基于ASP的一个人记账管理系统.zip

CloudStack-OpenvSwitch+高级网络部署案例

TestClasic-开源

《单片机系统设计》实验报告 (2).docx

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

BurpLoaderKeygen.jar.zip

BurpSuite V2024.1.1专业版

Chrome Header Editor 插件

Goby红队版-win-x64-2.4.7版本

软件工程导论(第六版)课后习题答案1

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

现代永磁同步电机控制原理及MATLAB仿真__袁雷编著1

OpenVAS离线资源

最新资源