论文研究-金融领域的事件句抽取.pdf

所需积分/C币:31 2019-07-22 21:26:19 966KB .PDF

事件句抽取是事件抽取中的核心环节,在金融领域中,公司名识别则是事件句抽取中的重点和难点。针对金融领域的事件句抽取,首先充分利用互联网搜索和上市公司名信息进行公司名识别,如果一个N元组是公司名,则进行互联网搜索的结果中包含“公司”“集团”等字词多,同时与公司名库中部分公司名有较高的匹配度;其次,综合考虑句子位置信息、包含公司名信息、包含领域动词信息、与标题相似度四个方面特征,构造权值表达式;最终从句子集中选出金融事件句。在数据集上测试,实验结果证明提出的金融领域事件句抽取方法是可行的,公司名识别方法的正确率可达82.28%,召回率达68.93%,事件句抽取的正确率可达66.83%。
第10期 李江龙,等:金融领域的事件句抽取 现8位字符加数宁的字符串,即“$*****米”或“s** 本文依存句法分忻器采用哈尔滨工业大学信息检索研究 ※米z”,则此N元组权值得分加2。 中心的依存句法分析模块 PArser。在1000篇文章中,经过人 经过此步,在公司名识别过程中,充分利用了具有一定实工标注200个领域动间后,再选择机器标注,最终形成包含 时性的互联网语料库。 679个动词的金融领域动词表。 表2网络搜索返回条目 表3特征模板表 编号 标题 内容简介 持征标记 特征释义 中国石油天然气集团公司是以油气业务、工程技 当前词条的前第一个词 中国石汨天然术服务、石油工程建设、石油装备制造、金报 T-2 当前词条的前第二个词的词类标注 集团公司务、新能源开发等为主营业务的综合性国际能源 公司 当前词条的前第一个词 2中石油百度中国石油天然气集团公司(简称中国石油集团 当前词条的前第一个词的词类标注 百科 中石油冫是一家集油气勘揆开发、炼油化L、油品 销售、汁气储运、白 当前词条 中石油的最新中石油甩卖不良资产昆仑系加速整合或为天然 当前词条的词类标注 桕关信息 气价改(图 当前词条的后一个词条 T+1 当前词条的后一个词条的词类标注 当前词条的后第二个词条 3金融事件句识别 T+2 当前词条的后第二个词条的词类标注 综合现有的事件句抽取方法:以文献[9]为代表,基于触 当前词条的句法角色 发词方法对词表依赖性强同时没有很好利用句子位置、与标题 key Flag 是否为关键动间,0或 相似度等特征信息;文献[14基于特征进行事件句抽取,其中3.3金融事件句抽取 只是泛泛地利用命名实休,没有充分利用领域词信息。基于 分析一个句子是否为一篇报道的事件句,主要考虑四个特 此,本文提出了基于语句权值体系的事件句抽取方法,综合公征:公司名信息、领域动词信息、与标题相似度和语句位置。 司名信息、领域动词信息、与标题相似度和语句位置四个方面3.3.1事件句特征 的特征,兼顾各个因素,同时又有所側重。 1)公司名信息、通过对新闻文本分析,金融事件的重要 3.1基本定义 主体为公可,所以将公司名作为事件句的一个重要特征。计算 定义1金融事件句。在金融事件报道中,一个句子包含如式(2)所示,unt(S)表示句子S包含的公司名数量。 事件的主体( subject)、谓词( predicate)两个核心要素,并能够 scorecompany (S: )=count( S,) 代表文章主旨,则称此句子为该篇报道的金融事件句。 2)金融领域动词信息动词一般作为一个事件的核 定义2领域动词集。它是指一组能够代表描述事件核本文在3.2节中已纤构建了金融领域动词表。计算领域动词 心内容的动词组合。本文主要是进行金融方面领域动词集的信息的权值方法如式(3)所示,一个句子中包含金融领域动 研究与构建。 词,那么这个句子是事件句的可能性更高。 3.2构建领域动词集 1句子中包含领域动词 scoreke verb 0句子中不包含领域动词 (3) 动词往往包含较多的事件信息,领域动词是事件句的重要 3)句子位置句子位置信息跟文本类型相关。在新闻 特征。本文采用半监督的方式来构建金融领域动词表,充分考 中,信息含量高的句子通常出现在前几句,所以本文将句子位 虑一个动词的上下文信息和在句子中的语义角色,利用最大熵置作为一个特征,权值计算如式(4)所示。 模型计算一个词属于金融领域动词的概率。关键步骤如下 scoreloeation (S)=1/i (4) a)人工从语料集中选出一些金融领域动词; 4)句」与标题相似度文本的标题一般含有较多的信息 b)结合人工选出的领域动词,从训练语料中构建所有动词的 量。通过式(5)计算句子与标题的相似度,可以评估句子作为 特征窗口,特征窗口包含上下文信息和语义角色信息两部分; 该篇报道事件句的可能性。其中,动词和名词包含更多的信息 c)在扩展语料集中构建所有动词的特征窗口 量.单个词条的权重通过式(6)来计算。 d)训练阶段,利用最大熵模型对步骤b)中特征窗口进行 训练 score,(s; wl:; weight(u) e)概率计算阶段,利用步骤d)训练得到的模型对步骤c) 2为动词或名词 中的特征侒口进行概率运算,得到个动词属于金融领域功词 weitht(u) 其他 和非金融领域动词的概率。 33.2事件句提取 其屮动词的上下文和语义角色特征窗口如表3所示。 设新闻文本中有n个句子,每个句子的得分是四个特征分 根据上述特征模板表,构建训练特征模板。例如训练语料量的线性组合,如式(7)所示。 中经过分词后的一个小句子片段“华神/nz集团/n闪电/停 score(S:)=t, score (Si) 牌/v谋/v重组。/wp",显然这里“停牌”是本次金融事件其中:kc{ company, key Ver, location, title F,各个特征分量的权 的关键动词。经依存句法分析后,“停牌”标注角色为“HED”,重l4在数据集上通过训练之后会得到最优组合。 则此关键词的特征窗∏为“集团/n闪电/v停牌/谋/重组/v 综合考虑句子包含的公司名信息、领域动词信息、与标题 相似度、句子位置四部分特征,可以减少某一个特征缺陷带来 2918 计算机应用研究 第34卷 的影响。公司名、动词信息属于金融领域相关的.但一篇报道文只针对金融领域事件,不考虑相对词频;b)基于触发词思 中往往有多个句子满足这一条件。利用标题提取事件句的做想,本文加入了领域动词和公司名两部分特征信息。 法依赖于标题的质量,如果标题没冇意义,这种方法就失去了4.2.3结果分析 意义;根据句子位置判断易受新闻报道写作手法的影响。 在两组实验数据上,四种方法的事件句抽取结果如表5所示。 表5金融事件句识别结果/% 4实验结果与分析 实验方法第 4.1公司名识别结果分析 N Compary 53.45 实验数据是从新浪财经网上下载的5000篇财经新闻,从 Five 屮随机选出100句进行公司名识别测试,按基本均等原则将 1000句分为三组数据。在实验中,调整阈值β,设定β值为16 本文方法 时,在第一组数据上可达到最好的效果。以此阈值在其他两组 从实验结果可得到如下结论 数据上测试,从表4可以看出达到了同等的识别效果。 a)句子位置是一个重要的特征。不用其他特征或参数调 表4公司名识別结果 整,只考虑句子是不是第一句,则可以很高的准确率抽取出新 实验编号公司数量正确率/%召回率/% 闻中的事件句。这是由新闻的特点决定的,新闻报道是新闻事 208 件的载体,为了吸引读者,在叙述方式上大多采用倒叙,即首先 第2组 呈现事件关键信息以引起兴趣。 第3组 8D.37 b)公司名对金融事件句的抽取效果具有重要的影响。对 综合 646 比 NCompany和本文方法,在利用了公司名后,金融事件句抽 综合三组数据测试结果,本文的公司名识别方法的正确 取的准确率可以提高13%左右。相应地, Fivel方法泛泛地考 率、召回率达到82.28%68.93%。同时对公司名识别结果中虑命名实体。在针对金融事件上,并不是所有类型的实体都有 的错淏进行分析,发现错误的主要类型在以下两个方面 意义,另外现有的分词工具对公司名的识别效果并不是很好。 a)公可名子串的影响。比如公司名“唐德影视”,其子串从实验结果对比上看,本文事件句抽取方法比 Five方法的正 “唐德”“唐德影”,无论是互联网搜索返回结果还是对比本地确率要高近12%。 公司名库,其都有成为公司名的特征。两个子串的得分都与正 同时,也进一步分析了影响事件句抽取效果的因素。首 确公司名“唐德影视”接近,如果提高阈值,则会影响召回率, 先,一些新闻文本中不存在完整的事件句,或事件的完整信息 而阙值太小则正确率大大降低。本文曾尝试对子串进行合并存在于两句话中。比如,一篇关于“金瑞矿业跨界恐遭叫停, 的策略,但较长的N元组会更易被识别为公司名,正确的公司重组标的业绩未达标已停牌”的金融新闻此事件完整信息意 名反而被错误合并。 思为:公司因重组标的业绩没有达标而遭到停牌。对应到文本 b)“公司”带来的错误。本文的公司名识别方法基于互联中,应该是“根据金瑞矿业的公告,次重组标的公司的一季 网搜索信息,故一些带“公司”的热点N元组会被误认为公司度业绩未达标,未实现重组报告中的业绩承诺。对此,公司昨 名比如“上市公司”“市公司”“家公司”。将进步考虑对包日已经停牌”。显然,此报道的事件句可以说是由两句话组 含“公司”的N元组进行长度和频率分析以减少此类借误。 成。而本文中事件句抽取的对象是一句话,因此在处理这类文 4.2事件句识别结果分析 本时,存在方法盲点。其次,若报道文本中有多个句子都描述 事件而各个句∫的信息量又基本相同,本文方法也很难抽取出 4.2.1参数学习 对于式(7),需要确定的值。本文将人工标注的216篇确切的事件句。实际上在这种情况下,人工标注也难以确定哪 个是最好的金融事件句 财经新闻文本随机抽取100篇作为参数学习语料,另116篇作 为测試。对于在满足0<m<1和∑W=1的条件下进行5结束语 遍历,精确到0.1。通过对结果的比较,最后确定0mgy llc、 W1、D分别为0.1、0.2、0.6和0.1。 针对公司名识别,特别是简称使用频繁、∏语化现象严重 4.2.2参考方法 带来的问题,本文提出了基于互联网信息的公司名识别方法。 a)首句法(FS)。基于对新闻报道特征的分析新首句这种方法利用的规则少,不受训练语料限制,充分为事件句的 通常包含最重要的事件信息,直接选择新闻首句作为事件句。提取及事件元素的识别做好了准备。同吋,本文充分结合基于 这种方法简单,很多情况下效果也不错,但显然会受新闻写法特征和基于触发词的二类事件句抽取方法,从公司名信息、领 的影响。本文将它作为参考方法。 域动词信息、与标题相似度、语句位置四个方面对句子进行综 b)大公司名( NCompany)。在大除公司名特征因素后看事合权重计算,最终选出金融事件句。在实际数据集上的实验结 件句扯取效果,以此检验公司名对事件句抽取的影响。 果证明了该方法能够很好地识别和提取金融事件句。 c)五特征法( Five)。 Five法是文献[14从相对词频、 本文的公司名识别方法和事件勾抽取方法可以攴持卞题 句子位置、句子长度、命名实体、句子与标题重合度五个特征出事件取和事件级金融新闻浏览服务。下一步要进行的工作 发,对一个句子成为主题事件句进行可能性计算。对比文献包括:在公司名的识别上,研究公司名子串问题的解决方案;深 14的扣取方法,本文同样考虑了句子位置、与标题相似度,度方面,在完成事件句的抽取后进行事件元素的抽取工作 但不同之处在于:a)文献[14.针对的是广泛的新闻事件,而本 (下转第2945页 第10期 刘臣,等:基于汉语组块产品特征—观点对提取与情感分析研究 2945 得到酒店在各个特征的特征一观点对及好评率。该方法不仅 机二程,2009,35(13):199-201 可以使用户更好地了解人们对酒店类产品各种特征的情感倾[8] Kamal A, Abulaish M, Anwar T. Mining feature-opinion pairs and 向分布,并优化用户对酒店类产品的购头决策;还可以使酒店 their reliability scores from Web opinion sources C//Proc of the 2nd 更清晰地了解消费者对自己服务和设施的反馈信息,为酒店对 International Conference on Web Intelligence. Mining and semantics 2012:1-7 各种特征的改进提供了更加准确的参考。 [9]孙挠,唐陈意.基于层叠模型细粒度情感要素抽恥及倾向分析 实验结果表明,木文方法的准确率较高,同时召回率也保 [J].榱式识別与人工智能,2U15,28(6):531-520. 持了较高的水平,说明本文的方法是有效的。本文将汉语组块[10]李业刚,黄河燕、汉浯组块分析研究综述[J.宀文信息学报, 分析应用到了产品特征和情感词的提取中,明显提高了提取产 201327(3):1-9 品特征一观点对的准确率。但是在产品特征一观点对的情感[11 Kudo T, Matsumoto Y. Chunking with support vector machines 分析的过程中,其准确率和召回率有待提高。今后的研究方冋 [C]//Proc of the 2nd Meeting of the North American Chapter of the 将对产品特征—观点对的情感分析方法进行改进,提高其准确 Association for Computational Linguistics on Language Technologies 率和召回率。 LS 1.]: Association for Computational Linguistics, 2001: 1-8 [12 Turney P D. Thumbs up or thumbs down? semantic orientation ap- 参考文献 plied to unsupervised classification of reviews[ C|//Proc of Meeting [1] Kim S M, Hov Y. Determining the sentiment of opinions[ C]//Proc on Association for Computational Linguistics. LS.1.: Association fo of the 20th International Conference on Computational Linguisti Computational Linguistics, 2002: 417-424 S 1.: Association for Computational Linguisties, 2004: 1367-1374 [I3]李婷婷,姬东鸿.基于SVM和CRF多特征鉏合的微博情慼分祈 [2 Hu Minging, Liu Bing. Mining and summarizing customer reviews [J].计算机应月研究,2015,32(4):%78-981 [C//Proe of the 10th ACM SIGKDD International Conference on [14]蔣宗礼,全益斌.结合点评情感分析的推荐算法研究[J.计算机 Knowledge Discovery and Data Mining. 2004: 168-177 [3] u a m etzioni o. extract d opir 应用研究,2016,33(5):1312-1314,1326 from reviews[ M//Natural Language Processing and Text Mining [15 Ravi K, Ravi V. A survey on opinion mining and sentiment analysis Londe 「4李实,叶强,李一军.肀文网络客户评谂的产品特征挖掘方法研究 tems,2015,89(C):14-46 「冂.管理科学学报,2009,12(2):42-152 [16] Li Qiudan, Jin Zhipeng, Wang Can, et al. Mining opinion summari [5]李实,李秋实.中文评论中产品特征挖掘的剪枝算汝研究[J].计 zations using convolutional neural networks in Chinese mierobloggin 算机工程,2011,37(23):43-45 systems[ J]. Knowledge-Based Systems, 2016, 107(C) [6 Li Xin, Xie Haoran, Rao Yanghui, ct al. Weighted multi-label clas 300. sification model for sentiment analysis of online news. C]// Proc of in-[17]尹裴,王洪伟面向产品特征的中文在线评论情惑分类:以本体建 ternational Conference on Big Data and Smart Computing 2016: 215 模为方法「J].糸统管理学报,2016,25(1):103-114 [18]王洪伟,郑丽娟,尹裴,等,基于匀子级情感的中文网络评论的情 [7」伍星,何中市,黄永文,基于弱监晉学习的产品特征抽取[冂].计算 感极性分类[J.管理科学学报,2013,16(9):64-74 (上接第2918页) 研究[J,屮文信息学报,2003,17(6):25-30,59 参考文献 [13]王力,李培峰,朱巧明,一种基于LDA模型的主题勺抽取方法 [J].计算机工程与应用,2013,49(2):160-164,257 ]韩永峰,许旭阳,李弼程,等基于事件抽取的网络新闻多文档自[14]王伟,赵东岩,赵炜中文新闻关键事件的主题句识别[J.北京 动摘要[J].中文信息学报,2012,26(1):58-66 大学学报:自然科学版,2011,47(5):789-796 [2]Lahari E P, Kumar D V NS, Ubale M. A comprehensive survey on [ 15] Ji Heng, Grishman R. Refining event extraction through unsupervised feature extraction in text summarization[ J]. International Journal of cross-document inference[C]//Proc of the 46th Annual Meeting of Computer Technology and Applications, 2014, 5( 1): 248 the Association for Computational Linguistics. 2008: 254-262 [3]熊娇,王明文,李茂西,等,基于词项一句子—文裆三层图模型的「I61 Li Peifen, Zhou Guodong, Zhu Qiaoming,cta!. Employing campo 多文档自动摘要[冂].中文信息学报,2014,28(6):201-207 sitional semantics and discourse consisteney in Chinese event extrac [4』钱强,庞林窳,高尚.种基于词共现图的受限领淢自动问答系统 tion[ C]//Proc of Joint Conference on Empirical Meth LJ」.计算机应月斫究,2013,30(3):841-843 guage processing and co L5」陈超,朱洪波,王亚强,等.中文财经文本肀公司名简称的自动识 STroudsburg: Assoc iation for Computational I. inIglislics. 2012: 1006- 别[J].四川大学学报:自然科学版,2011,48(2):308-314 1016 中公司名的识别.中[17]李培峰,周国栋,环明,于语义的中文事件触发词抽取联合模 文信息学报,2002,16(2):1-6 型冂].软件学报,2016,27(2):280 [7』张占英,王中立,中文文本中公司名简称的识别[J].许昌学院学 [18 Chen Zheng, Ji Heng. Ca 报,2003,22(2):99-101 study on event extraction C| //Proc of Work shop on Semi Supervised Learning for Natural Language Processing. Stroudsburg: Association for [8 ACE (automatic content extraction ) Chinese annotation guidelines for Computational Linguistics, 2009: 66-74 eventsversion5.5.ir/ol.(2005-07-01).http://www.ide.up [19 Ji Heng. Cross- lingual predicate cluster acquisition to improve bilin- enn. edu/Projects/ACE/ la event exirdr' lOl on by inductive learning[ C]//Pror of Workshop on [刂赵妍姸,秦兵,车万朔,等.中文事件抽取技术研究[J].中文信息 Unsupervised and Minimally Supervised Learning of Lexical Seman- 学报,2008,22(1):3-8 tics.2009:27-35 10许旭阳,韩永峰,宋文致事件抽取技术的回顾与展望」信息[20] Qin bing, Zhao Yanyan, Ding xiao,cta. Event type recognitio 工程大学学报,2011,12(1):113-118 based on trigger expansion J. Tsinghua Science and Technolo [1]丁效,宋凡,秦兵,等.音乐领城典型事件抽取方法研硏究[J,中文 gy,2010,15(3):251-258. 信息学报,2011,25(2):15-20 [21]赵军,刘康,周光有,等.开放式文本信息抽取[J].中文信息学 [12]吴平博,陈群秀,马亮、基于事件框架的事件相关文裆的智能检索 报,2011,25(6):98-110

...展开详情
试读 5P 论文研究-金融领域的事件句抽取.pdf
img

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐
    论文研究-金融领域的事件句抽取.pdf 31积分/C币 立即下载
    1/5
    论文研究-金融领域的事件句抽取.pdf第1页
    论文研究-金融领域的事件句抽取.pdf第2页

    试读已结束,剩余3页未读...

    31积分/C币 立即下载 >