基于超图的汉越双语新闻话题要素提取资源-CSDN文库

28 浏览量 2021-03-14 15:29:39 上传评论收藏 512KB PDF 举报

针对汉越双语新闻话题文本集合中新闻话题要素提取的问题进行了研究，在超图模型的基础上，运用了PageRank随机游走排序方法。首先根据触发词激励的方法提取新闻中的事件要素；然后在此基础上构建话题超图模型，将汉越事件要素作为节点，将文本集合中的句子作为超边，根据概率评估函数计算节点和超边的初始权重；最后采用PageRank随机游走方法对汉越事件要素进行评分，最终得到汉越话题要素。实验结果表明，该方法相比只考虑单文本事件要素提取方法的效果有显著提高，说明了基于超图的PageRank方法提取新闻话题要素的准确性。本文主要探讨了如何在汉越双语新闻话题文本集合中有效地提取新闻话题要素，采用了基于超图模型的PageRank随机游走排序方法。新闻话题要素提取是自然语言处理中的一个重要任务，它涉及到从大量文本中识别出关键信息，这对于新闻分析、信息检索和机器翻译等领域具有重要意义。研究中提出利用触发词激励的方法来提取新闻中的事件要素。触发词通常是指能够触发特定事件的关键词，如“宣布”、“发生”等。通过识别这些词汇，可以初步定位新闻中的核心事件。触发词激励的策略有助于减少噪声信息，提高事件抽取的准确性。接着，构建话题超图模型是该方法的关键步骤。在这个模型中，每个汉越事件要素被表示为一个节点，而文本集合中的句子则作为超边连接这些节点。超图模型能够捕捉到句子间的关联，帮助理解事件要素之间的上下文关系。概率评估函数用于计算每个节点（事件要素）和超边（句子）的初始权重，这一步骤对于后续的排序过程至关重要。随后，应用PageRank算法进行随机游走，对汉越事件要素进行评分。PageRank是Google搜索引擎的核心算法之一，它通过模拟随机浏览网页的过程来评估网页的重要性。在这里，PageRank被用来评估事件要素的重要性，考虑到它们在整个话题文本中的影响力。通过对节点的不断游走和评分，可以确定哪些事件要素是话题的核心，从而提取出汉越新闻的话题要素。实验结果显示，基于超图的PageRank方法相比于仅考虑单文本事件要素提取的方法，其效果显著提升。这证明了超图模型能够更准确地捕获跨文本的事件关系，提高了话题要素提取的精度。这项研究为多语言新闻话题要素的提取提供了一种有效的方法，尤其适用于处理汉越双语新闻数据。通过结合触发词激励、超图建模和PageRank算法，该方法能更好地挖掘新闻文本中的深层结构和关联，为新闻分析和信息处理提供有力工具。未来的研究可以进一步扩展到其他语言和更多类型的文本，以验证和优化这种方法的普适性。

资源推荐

资源详情

资源评论

收稿日期

! !"#$%"+%!)"

修回日期

! !"#$%"*%##''

基金项目

国家自然科学基金资助项目

#$#+$!"(&$

作者简介

涂子令

##&&#%$ %

男

湖北孝感人

硕士研究生

主要研究方向为自然语言处理

#+#($*.*&./001234$"

周枫

##&+.%$ %

男

云南昆明人

副教授

硕导

硕士

主要研究方向为数据挖掘

自然语言处理

余正涛

##&*"%$ %

男

云南昭通人

教授

博导

博士

主要研究方向为自然语言处理

信息检索

机器翻译

严馨

##&$&%$%

女

云南昆明人

副教授

硕导

硕士

主要研究方向为数据挖掘

洪旭东

##&.&%$ %

男

安徽马鞍山人

博士研究

生

主要研究方向为信息检索

机器翻译

基于超图的汉越双语新闻话题要素提取

涂子令

周

枫

余正涛

严

馨

洪旭东

昆明理工大学信息工程与自动化学院

昆明

$+"+""$

摘

要

针对汉越双语新闻话题文本集合中新闻话题要素提取的问题进行了研究

在超图模型的基础上

运用

了

7JGAVJ>a

随机游走排序方法

首先根据触发词激励的方法提取新闻中的事件要素

然后在此基础上构建话

题超图模型

将汉越事件要素作为节点

将文本集合中的句子作为超边

根据概率评估函数计算节点和超边的初

始权重

最后采用

7JGAVJ>a

随机游走方法对汉越事件要素进行评分

最终得到汉越话题要素

实验结果表明

该方法相比只考虑单文本事件要素提取方法的效果有显著提高

说明了基于超图的

7JGAVJ>a

方法提取新闻话

题要素的准确性

关键词

汉越双语

事件要素

超图

随机游走

话题要素

中图分类号

! 67)&#1#'''

文献标志码

! 8'''

文章编号

! #""#%)$&+#!"#*$".%!!*.%"(

93:!#"1)&$& ;<1:==>1#""#%)$&+1!"#*1".1"".

bSHBJ2H:3> 3D>AC=H3E:2AKA4A>H=D3B\F:>A=A^:AH>J4A=A

I:K:>GLJKIJ=A9 3> FPEABGBJEF

6L N:K:>G% NF3L TA>G% ML NFA>GHJ3% MJ> h:>% -3>GhL93>G

#"#$%%&%'=.'%2+,*-%. /.0-.112-.0 <()*%+,*-%.% E).+-.0 6.-7124-*8%'"#-1.#1<C1#$.%&%08% E).+-.0 $+"+""% :$-.,$

!"#$%&'$! 6F:=EJEAB=HL9:A9 HFAEB3IKA4=3D>AC=H3E:2AKA4A>H=:> HFA\F:>A=AJ>9 ^:AH>J4A=AI:K:>GLJK>AC=H3E:2HASH

23KKA2H:3>=1]J=A9 3> FPEABGBJEF 439AKASHBJ2HA9

%:HL=A9 HFA7JGAVJ>a BJ>934 CJKa 3B9AB:>G4AHF391T:B=HJ223B9:>GH3HFA

HB:GGABC3B9 :>2A>H:@A4AHF39%:HASHBJ2HA9 HFA>AC=A@A>HAKA4A>H=% J>9 HFA> 3> HFAIJ=:=3DHF:=%:H23>=HBL2HA9 H3E:2FPEABG%

BJEF 439AK1QHH33a HFA\F:>A=AJ>9 ^:AH>J4A=AAKA4A>H=J=>39A=J>9 HFA=A>HA>2A=3DHASH23KKA2H:3> J=JFPEAB%A9GA%:H2JK%

2LKJHA9 HFA:>:H:JKCA:GFH=3D>39A=J>9 FPEABA9GA=J223B9:>GH3EB3IJI:K:HPA@JKLJH:3> DL>2H:3>1T:>JKKP

%:HL=A9 HFA7JGAVJ>a

BJ>934CJKa 4AHF39 H3=23BAHFAAKA4A>H=3DHFA\F:>A=A%^:AH>J4A=AA@A>H%J>9 D:>JKKP3IHJ:>A9 HFAAKA4A>H=3DHFA\F:>A=A%

^:AH>J4A=AH3E:21VA=LKH==F3CHFJHHFAEB3E3=A9 4AHF39 2J> =:G>:D:2J>HKP:4EB3@AHFAASHBJ2H:3> EABD3B4J>2A234EJBA9 H3HFA

4AHF39 3>KP23>=:9ABA9 =:>GKAHASHA@A>HDAJHLBAASHBJ2H:3>1QH=F3C=HFAJ22LBJ2P3DASHBJ2H:3> 3D>AC=H3E:2IP7JGAVJ>a 4A%

HF39 IJ=A9 3> FPEABGBJEF AKA4A>H=1

()* +,%-#! \F:>A=AJ>9 ^:AH>J4A=A" A@A>HAKA4A>H=" FPEABGBJEF" BJ>934CJKa" H3E:2AKA4A>H=

引言

越南与我国的交流日益密切

两国有很多共同的国际和地

区热点问题

围绕同一问题会有很多分别用汉语和越南语表达

的新闻文本

从汉越双语新闻话题文本集合中提取出与话题

紧密相关的不同语言要素

对于了解新闻话题的全貌

对比分

析不同国家对话题事件的不同看法等都具有重要作用

话题是包含种子事件和一系列外延事件的集合

用汉越两

种语言分别描述同一话题叫做汉越双语话题

事件要素是以

单文本为对象进行提取的

无法对话题的文档集合进行整体的

概括表达

但是可以先将单文本中的事件信息抽取出来

然后

根据文本之间事件要素的联系在话题文本集合中提取出具有

共性的事件要素作为新闻话题要素来精简地描述一个话题文

本集合

基于汉越双语词典

可以找到意思相近的汉越双语事

件要素

将汉越双语话题关联起来

最终通过超图模型提取出

汉越话题要素

本文的主要目的是解决如何从汉越话题文本

集合中提取出汉越话题要素

考虑到话题内汉越不同语言文

本间存在事件要素互译

句子及文本间词语共现等多种关系

采用超图模型进行建模

提出了基于超图的汉越双语新闻话题

要素提取方法

汉越双语新闻话题要素的提取

主要是解决跨语言的话题

表征问题

本文运用了基于超图的随机游走方法

首先通过触

发词激励的方法得到汉越事件要素

对象

时间

地点

触发

词

再以汉越事件要素为节点

句子为超边来构建超图模型

然后根据概率评估函数得到节点和超边的初始权重

最后通过

基于超图的随机游走迭代算法取排名较高的汉越事件要素为

汉越新闻话题要素

汉越新闻话题要素具体包括与话题事件集

合相关的人物

# CF3$ &

时间

# CFA>$ &

地点

# CFABA$ &

触发词

#CFJH$

等

第

)(

卷第

期

!"#*

年

月

计算机应用研究

8EEK:2JH:3> VA=AJB2F 3D\34ELHAB=

^3K_)( Z3_.

8LG1!"#*

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

评论收藏

内容反馈

weixin_38586279

粉丝: 2
资源: 949

基于超图的汉越双语新闻话题要素提取

基于超图的空间叠加分析

论文研究-基于超图的超网络:结构及演化机制.pdf

基于超图划分的车联网V2I_V2V资源共享机制研究.pdf

基于超图iObject .net 点外挂模型导出工具

基于超图软件的WebGIS应用系统二次开发技术研究.doc编程资料

基于超图神经网络的恶意流量分类模型

基于超图GIS组件的四川省旅游服务平台设计源码

基于自编码器及超图学习的多标签特征提取

网络游戏-基于超图的多任务个性化网络服务方法.zip

基于超图卷积神经网络的推荐系统源码+部署教程文档+全部数据+训练好的模型（高分项目）.zip

基于计算机超图的人脸表情驱动.docx

基于改进超图的变电站自动化系统关键要素识别.rar

基于超图随机游走标签扩充的微博推荐方法.pdf

基于改进超图的变电站自动化系统关键要素识别.pdf

基于android的超图软件开发

基于超图软件平台的数据结构及其在滁州震害防御数据库系统中的应用.pdf

基于超图正则化的概念分解及在数据表示中的应用

超图sdk使用demo

超图IEarth处理工具

基于加权超图的产学研合作申请专利超网络模型——以上海电子信息产业为例.pdf

最新资源