论文研究-基于Bi-LSTM的医疗事件识别研究.pdf

所需积分/C币:38 2019-07-22 19:59:58 972KB .PDF

文本的信息抽取及属性识别是文本语义分析的一项重要任务。在已有工作基础上提出了双向LSTM与MLP集成的深度神经网络模型。在2016年SemEval的医疗事件抽取以及事件属性预测任务中,该模型将医疗文本的词性以及命名实体的描述信息当做附加属性,使用双向LSTM神经网络学习文本的隐藏特征,解决了传统方法通用性不强以及无法捕捉前后文隐含信息的缺点,再使用全连接的方式去判断候选词汇是否属于医疗事件以及识别其相关属性。实验结果表明,提出的神经网络模型对医疗文本的抽取效果优于以往学者的方法。
1976 计算机应用研究 笃35卷 event在i时刻的预测值;t1是指type在i时刻的真实值;t是指 ment creation times);f)时间事件关系( narrative container rela pe在i时刻的预测值;P是指 polarity在i时刻的真实值;t2 tions among events and times)。本文完成了其中第二个和第四 是指 polarity在时刻的预测值;d是指dcge在i时刻的真实个子任务,专注于医疔事件相关的任务。 值;t是指 degree在时刻的预测值;m;是指 modality在i时刻 本文用到的数据是 Mayo clinic(htp://ww. mayoclinic. rg/)的医疗笔记、癌症病例报到以及该文件的人工标注数据 的真实值;tm是指 modality在i时刻的预测值。 共计600个文件。数据集分为训练集、验证集、测试集三部分 该损失函数综合了 event、ype、 polarity、 degree、 modality五分别包含297、150、153个文件。训练集、验证集、测试集三者 种属性,因此训练后的模型可反映岀这五种属性的内在关联信的统计信息如表2所示,具体到医疗事件属性的数目分布统计 息,以使更好地作出预測 则如表3~6所示 2.3 Bi-LSTM-based model Il 表2数据集医疗事仵统计 第一个模型用GlVe200维度的词向量来表示每个单词, 数据集候选词医疗事件非重复侯选词非重复医疗事件 并不能很好地表示出单词本身的其他属性信息。因此,本文在 训练集 203090 32421 8970 3647 第一个模型的基础上又添加了咩词的属性信息,如词性以及命 验证集 108499 1775 2673 名实体特征,以完善单词的表示。这两个特征是通过 Stanford测试集11497518459 6751 Corenlp来获取的。间性特征POS和命名实休特征NE的加 总计 426564 68637 13205 5242 入,结合词向量一起,可以更好地刻画出深层次的语义信息,使 表2屮,候选词是指医疗文本分词之后每个词语单元的数 得预测结果更加准确。引入单词属性特征后的新模犁如图4目;医疗事件是指医疗文本中出现的医疗事件的数目;非重复 所示。 侯选词是指候选词去充值后的候选词种类的数目;非重复医疗 event vent event event 事件是指医疗事件去充值后的医疔事件种类。 表3医疗事件的属性 表4医疗事件的属性 ype分布统计 degree分布统计 modality Modality H-lmodalitvI type \/A ASPECTLAL EVIDENTIAL degree N/A LITTLE MOST hidden 训练集30239459 训练集3223911171 验证集16489 验证集17675414 backward LSIM+(LSIM)(LSTM)(SIM- SIM) 测试集17276 974 测试集183735333 表5医疗事件的属性 polarity分布统计 for warl LSTM- ISTM+ISTM -+LSTM*(ISTM POS NEG molarity POS NEG 训练集 19430 2991 测试集 6835 624 word embedd 验证集 l607 表6医疗事件的属性 morality分布统计 POS odality IIEDGED GENERIC IYPOTIIETICAL ACTUAI 训练集 29883 验证集 339 662 16481 had 测试集 864 16919 图4Bi-LSTM- based modelⅡ示意图 模型最底层是输入层。将一段医疗文本输人模型,与Bi- 3.2实验设置 ISTM- based model i不同的是分词之后得到每个单词的词向量 本文首先使用 Stanford corelli tool(htp:/ stanfordnlp 以及该单词的词性特征PO和命名实体NE特征结合在一起 github. io/ CareL.p/)去处理原始文本,获取原始文本分词后的 作为本模型的输入。这个模型下i时刻的输人。 单词以及单词的词性信息、命名实体信息;然后借助GoVe(h- x;=「Vod;rc;V p:/mnp. sanford.edu/ projects/gve/)得到每个单词200维度 其中 是词向量;m表示特征向量化后的词性特征;V表的词向量信息;再对词性以及命名实体信息词袋模型的方法进 示特征向量化后的命名实体特征;]表示将其中的向量级联。行编码分别得到44维和13维的向量,将这两者与词向量拼 这样输入A1不仅包含了词语本身的信息,也将词性特征1OS接到一起,组成新的词向量;最后使用 Tensorflow(htp:/w 和命名实体特征N融合进去,使得输入的语义信息更加丰 tensorflow.og/)来建模以及处理数据,模型的学习率为0.02 富,组合后的词向量可以更准确、全面地表达单词本身,进而对 经过ISTM训练后的模型将每一个单词映射到一个256维的 模型有优化作用。 矩阵中,即隐含层神经元的数量为256。对隐含层进行五次运 此外,由于不同属性对日标损失的影响不同,木模型在第算得到该单词的五个属性特征。考虑到对候选词是否是 evenl 个模型的基础上对损失函数进行了改进,给损失函数中的五的判断最为重要(木文采用的策略是如果该候选词不是 event 个部分分别添加了损失权重,其他部分与模型I保持一致。 则舍弃之后四种属性的预测结果),因此提高 event的权重。 cost=a, xL(e,, t,. )+a, XL(L, t, )+a,xLip,, in.)+ 模犁2中各个权重依次为0.40.150.15、0.15、0.15。最后采 ai xl(d;, t)+amx L(m, Lm.) 用随机梯度下降算法对神经网终进行训练。 特别说明的是,模型中每个LSIM单元都生成一个隐含 3实验与分析 层,而本文实验都是以文档为单位进行学匀和预浏,这就带来 个问题,即各个文档的长度(文档所含的单词数目)是不同 3.1数据 的。经过统计,最长的文档单词个数不超过4000,因此木文以 2016医疗信息抽取任务(htt:/at.gri.orgy/ semeval2016′4000为固定的训练步长,不足4000的部分使用循环填充的 task2/)致力于从医疗笔记中抽取医疗事件信息,其中本任务方法来补佘,这样便解决了文档长度不统一的问题。 包含了六个子任务:a)时间抽取( spans of time expressions);b 本次实验以CRF作为基准线。CRF作为传统机器学习 事件抽取( spans of event mentions);c)时间属性抽取( attributes具,广泛地应用于分词、词性标注和命名实体识别等序列标注 of times);d)事件属性抽取( attribute of events);e)事件与文档任务中,具有出色的效果。将本文模型与CRF对比可以很好 创建时间的时序性预测( events’ temporal relations Lo the docu-地体现模型的优劣。表7列出了本文使用的全部特征组合 第7期 仸伟涛,等:基于 Bi-LSTM的医疗事件识别研究 1977· 表7CRF模型使用的特征组合 性的识别问题整体化,使得模型可以站在全局角度对事件进行 特征组合 持征组合 预测;ISTM模型的引入解决了传统方法无法刻画单词前后长 UC0:%x[-2,0 U05:%x-2,0/%x-1,0] 距离依赖的问趑;重婓的是本文的模型方法可以更好地实现 UOI:%x[-1,0] U06:%x[-1,0]/%x[0,0] 对医疗事件的抽取识别工作。实验表明,木文模型对事件预测 LO2:%x[0,0] U07:%x[0,0/%x[1,0] 的准确率和召回率都超过了传统方法。 LO3:%x[1,0] UU8:%x[1,0/%x[2,0 本文特征的选取针对的是英文医疗文本,对于中文医疗文 本的医疗事件抽取则需婁选择针对中文的特征。此外,特征设 04:%x[2,0] I:%x[-1,0]/%x[1,0 计方面或许可以不局限于单词级别的特征,如寻找语句级划的 3.3实验结果以及结果分析 语义。为了达到更好的医疗事件识别效果和实际应用,以上是 本文釆用准确率和召回率来评价模型的优劣。准确率和本文的下一步努力方向。 召回率是广泛用于信息检索和统计学分类领域的两个度量值,参考文献: 用来评价结果的质量。其中精度是指检索出的相关文档数与[1 Caselli T, Morante R. VUACLTL at SemEval2016tsk12:aCRF 文档总数的比率,量的是检索系统的查准率;召回率是指检 pipeline to c linical Temp E.val C]//Proe of the: 10th Internal ional 索出的相关文档数和文档库中所有的相关文档数的比率,衡量 Workshop on Semantic Evaluation. 2016: 1241-1247 的是检索系统的查仝率。 [21 Abdulsalam AA, Velupillai S, Meystre S. Utah BMI at SemEval- 实验结果如图5、6所示。从图5、6中可以看出,对于本任 2016 task 12: extracting temporal information from clinical text[C]// 务,Bi-LSIⅥ- model-相对于以CHF为代表的传统机器学习方 Proe of the 10th International Workshop on Semantic Evaluation 法在每个医疗事件属性的判新上都有一定的提升,而加入了更 2016:1256-1262 多特征的 Bi-LSTM-model-相对于未改进的方法在事件属性3Lel, Xu lua, Wang Jing,etl. UTIlealth at SemEval2016 task 12: an end-to-end system for temporal information extraction 的预测屮有了进一步的性能提升。与传统方法相比,本文模型 clinical notes[ Cl//Proc of the 10th International Workshop on 可以更好地学习长距离文本的语义特征,因此与传统方法相比 lantic Evaluation. 2016: 1292-1297 有较大优势,而文本附加特征的加入可以强化模型的预測[4] Cohan A, Meurer K, Goharian m. GUIR at semEval-2016task12: 性能。 temporal information proressing for clinical narratives[C//Proc the 10th International Workshop on Semantic Evaluation. 2016: 1248 Hhhh [5 Sarath PR, Manikandan R, Niwa Y. Hitachi at Sem Eval-2016 task event ype palarity degree modality 12 a hybrid approach for temporal information extraction from clinical ■CRF口Bi-LSIM-I■Bi-LSTM-Ⅱ roles[C//Proe of the 101h Internatinnal Workshop on Semantic 图5各个模型准确率统计 Evaluation.2016:1231-1236 [6 Li Ping, Huang Heng. UTA DLNLP at SemEval-2016 task 12: deep 0.9 Talim l learning based natural language processing system for clinical informa tion identification from clinical notes and pathology reports[C// Proc of the 10th International Workshop on Semantic Evaluation event ■CRF□Ri-ISTM-I口 Bi-LSTⅥ-Ⅱ 2016:1268-1273 图6各个模型的召回率统计 [7 Barros M A, Lamurias A. Figueiro G, et al. ULISBOA at SemEval 3.4误差分析 2016 task 12: extraction of temporal expressions, clinical events and relations using IBEnt[C]//Proc of the 9th International Workshop on 本文所用的数据集中,有一小部分的医疗事件是由多个单 emantic evaluation. 2016. 1263-1267 词构成。据统计,总计有86种医疗事件是由多个单词构成,占[8」 Tourville j, Ferret, Nevel A,ea. I. IMST-COT al Serm下va-2016 所有医疗事件的1.64%。本文针对的是单个单词医疗事件的 task 12: temporal relation identification using a pipeline of classifiers 预测,所以这部分内容是本文模犁无法作出预测的。除此之 [CI//Proc of the 10th International Workshop on Semantic Evalua 外,数据集的标注文件是 Mayo clinic的工作人员人工标注,因 tion.2016:1136-1142. 此难免会有疏漏错误的情况出现。根据木文统计,梅奥医院给[9] Mikoloy t. Karafiat M, Burget L,era. Recurrent neural network hased language model[ C//Proe of the 1 1th Annal Conference of 出的标注屮出错的标注有38种(标注的医疗事件末尾包含空 the International Speech Communication Association. 2010: 1045 格或者标点符号),占所有医疗事件的0.72%。这部分内容也 定程度上影响」模型的学习。剩下的误差都是模型还不够[10] Collobert r, Weston j, Bottou L,etal. Natural language processing 完美,无法模拟真实情况带来的淏差。为了增强模型的通用 (almost )from scratch[ J]. Joumal of Machine Learning Re- 性,下一步的工作会解决多词语事件无法预测的缺陷。眼下笔 search,2011,12(1):2493-2537 者认为在当前模型的基砷之上,以当前端对端模型学习到的隐1 I Socher I, Duval B, Manning G d,ea. Semantic compositionality 含层作为CRF的输入,利用IO法,这样理论上既可以同时抓 through recursive matrix-vcctor spaces[ C]// Proc of Joint Conference 取到不同维度间属性的关联,又可以实现对多词语医疗事件的 n Empirical Methods in Natural Language Processing and Computa tional Natural Language Learning. 2012: 1201-121 预测。 12 Hammerton J. Named entity recognition with long short-term memory 4结束语 CJ//Proc of the th Conference on Natural Language Learning at HIINAACI.2003:172-175 本文提出了一种基于 Bi-LSTM的医疗事件抽取以及属性「131 Huang Zhiheng,xuWe,YuKa. Bidirectional LSTM-CRF models 识别的端到端模型,这个模型不仅避免了传统机器学习方法通 for sequence tagging[ J]. arXiv: 1508. 01991, 2015 用性不够的缺点,而且能够避免对多属性问题单独分类造成的14] Ma xuezhi,HoyE.Endo- end sequence labeling via bi-directional 信息丢失问题。经过实验,本文模型在 Mayo Clinic提供的语 .STM-CNNS-CRF[JJ. Eprint arXiv, 1603. 0135 [15 Graves A. Supervised sequence labelling with recurrent neural net 料上取得了很好的效果。与传统机器学习方法相比,本文的模 MI. Berlin Spr 型方法有以下优势:不依赖特定领域肭自然语言处理工具,可[16]胡新辰.基于ISTM的语义关系分类硏究[D].哈尔滨:哈尔滨 以推广到其他领域,有较强的通用性;把医疔事件以及事件属 工业大学,2015

...展开详情
试读 4P 论文研究-基于Bi-LSTM的医疗事件识别研究.pdf
img

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐
    论文研究-基于Bi-LSTM的医疗事件识别研究.pdf 38积分/C币 立即下载
    1/4
    论文研究-基于Bi-LSTM的医疗事件识别研究.pdf第1页
    论文研究-基于Bi-LSTM的医疗事件识别研究.pdf第2页

    试读已结束,剩余2页未读...

    38积分/C币 立即下载 >