收稿日期
! !"#$%"+%!)"
修回日期
! !"#$%"*%##''
基金项目
!
国家自然科学基金资助项目
#$#+$!"(&$
作者简介
!
涂子令
##&&#%$ %
男
%
湖北孝感人
%
硕士研究生
%
主要研究方向为自然语言处理
#+#($*.*&./001234$"
周枫
##&+.%$ %
男
%
云南昆明人
%
副教授
%
硕导
%
硕士
%
主要研究方向为数据挖掘
&
自然语言处理
"
余正涛
##&*"%$ %
男
%
云南昭通人
%
教授
%
博导
%
博士
%
主要研究方向为自然语言处理
&
信息检索
&
机器翻译
"
严馨
##&$&%$%
女
%
云南昆明人
%
副教授
%
硕导
%
硕士
%
主要研究方向为数据挖掘
"
洪旭东
##&.&%$ %
男
%
安徽马鞍山人
%
博士研究
生
%
主要研究方向为信息检索
&
机器翻译
1
基于超图的汉越双语新闻话题要素提取
!
涂子令
%
周
'
枫
%
余正涛
%
严
'
馨
%
洪旭东
#
昆明理工大学 信息工程与自动化学院
%
昆明
$+"+""$
摘
'
要
!
针对汉越双语新闻话题文本集合中新闻话题要素提取的问题进行了研究
%
在超图模型的基础上
%
运用
了
7JGAVJ>a
随机游走排序方法
'
首先根据触发词激励的方法提取新闻中的事件要素
"
然后在此基础上构建话
题超图模型
%
将汉越事件要素作为节点
%
将文本集合中的句子作为超边
%
根据概率评估函数计算节点和超边的初
始权重
"
最后采用
7JGAVJ>a
随机游走方法对汉越事件要素进行评分
%
最终得到汉越话题要素
'
实验结果表明
%
该方法相比只考虑单文本事件要素提取方法的效果有显著提高
%
说明了基于超图的
7JGAVJ>a
方法提取新闻话
题要素的准确性
'
关键词
!
汉越双语
"
事件要素
"
超图
"
随机游走
"
话题要素
中图分类号
! 67)#'''
文献标志码
! 8'''
文章编号
! #""#%)$&+#!"#*$".%!!*.%"(
93:!#"1)&$& ;<1:==>1#""#%)$&+1!"#*1".1"".
bSHBJ2H:3> 3D>AC=H3E:2AKA4A>H=D3B\F:>A=A^:AH>J4A=A
I:K:>GLJKIJ=A9 3> FPEABGBJEF
6L N:K:>G% NF3L TA>G% ML NFA>GHJ3% MJ> h:>% -3>GhL93>G
#"#$%%&%'=.'%2+,*-%. /.0-.112-.0 <()*%+,*-%.% E).+-.0 6.-7124-*8%'"#-1.#1<C1#$.%&%08% E).+-.0 $+"+""% :$-.,$
!"#$%&'$! 6F:=EJEAB=HL9:A9 HFAEB3IKA4=3D>AC=H3E:2AKA4A>H=:> HFA\F:>A=AJ>9 ^:AH>J4A=AI:K:>GLJK>AC=H3E:2HASH
23KKA2H:3>=1]J=A9 3> FPEABGBJEF 439AKASHBJ2HA9
%:HL=A9 HFA7JGAVJ>a BJ>934 CJKa 3B9AB:>G4AHF391T:B=HJ223B9:>GH3HFA
HB:GGABC3B9 :>2A>H:@A4AHF39%:HASHBJ2HA9 HFA>AC=A@A>HAKA4A>H=% J>9 HFA> 3> HFAIJ=:=3DHF:=%:H23>=HBL2HA9 H3E:2FPEABG%
BJEF 439AK1QHH33a HFA\F:>A=AJ>9 ^:AH>J4A=AAKA4A>H=J=>39A=J>9 HFA=A>HA>2A=3DHASH23KKA2H:3> J=JFPEAB%A9GA%:H2JK%
2LKJHA9 HFA:>:H:JKCA:GFH=3D>39A=J>9 FPEABA9GA=J223B9:>GH3EB3IJI:K:HPA@JKLJH:3> DL>2H:3>1T:>JKKP
%:HL=A9 HFA7JGAVJ>a
BJ>934CJKa 4AHF39 H3=23BAHFAAKA4A>H=3DHFA\F:>A=A%^:AH>J4A=AA@A>H%J>9 D:>JKKP3IHJ:>A9 HFAAKA4A>H=3DHFA\F:>A=A%
^:AH>J4A=AH3E:21VA=LKH==F3CHFJHHFAEB3E3=A9 4AHF39 2J> =:G>:D:2J>HKP:4EB3@AHFAASHBJ2H:3> EABD3B4J>2A234EJBA9 H3HFA
4AHF39 3>KP23>=:9ABA9 =:>GKAHASHA@A>HDAJHLBAASHBJ2H:3>1QH=F3C=HFAJ22LBJ2P3DASHBJ2H:3> 3D>AC=H3E:2IP7JGAVJ>a 4A%
HF39 IJ=A9 3> FPEABGBJEF AKA4A>H=1
()* +,%-#! \F:>A=AJ>9 ^:AH>J4A=A" A@A>HAKA4A>H=" FPEABGBJEF" BJ>934CJKa" H3E:2AKA4A>H=
E"
引言
越南与我国的交流日益密切
%
两国有很多共同的国际和地
区热点问题
%
围绕同一问题会有很多分别用汉语和越南语表达
的新闻文本
'
从汉越双语新闻话题文本集合中提取出与话题
紧密相关的不同语言要素
%
对于了解新闻话题的全貌
&
对比分
析不同国家对话题事件的不同看法等都具有重要作用
'
话题是包含种子事件和一系列外延事件的集合
%
用汉越两
种语言分别描述同一话题叫做汉越双语话题
'
事件要素是以
单文本为对象进行提取的
%
无法对话题的文档集合进行整体的
概括表达
'
但是可以先将单文本中的事件信息抽取出来
%
然后
根据文本之间事件要素的联系在话题文本集合中提取出具有
共性的事件要素作为新闻话题要素来精简地描述一个话题文
本集合
'
基于汉越双语词典
%
可以找到意思相近的汉越双语事
件要素
%
将汉越双语话题关联起来
%
最终通过超图模型提取出
汉越话题要素
'
本文的主要目的是解决如何从汉越话题文本
集合中提取出汉越话题要素
'
考虑到话题内汉越不同语言文
本间存在事件要素互译
&
句子及文本间词语共现等多种关系
%
采用超图模型进行建模
%
提出了基于超图的汉越双语新闻话题
要素提取方法
'
汉越双语新闻话题要素的提取
%
主要是解决跨语言的话题
表征问题
'
本文运用了基于超图的随机游走方法
%
首先通过触
发词激励的方法得到汉越事件要素
#
对象
&
时间
&
地点
&
触发
词
$"
再以汉越事件要素为节点
&
句子为超边来构建超图模型
"
然后根据概率评估函数得到节点和超边的初始权重
"
最后通过
基于超图的随机游走迭代算法取排名较高的汉越事件要素为
汉越新闻话题要素
%
汉越新闻话题要素具体包括与话题事件集
合相关 的 人 物
# CF3$ &
时 间
# CFA>$ &
地 点
# CFABA$ &
触 发 词
#CFJH$
等
'
第
)(
卷第
.
期
!"#*
年
.
月
'
计 算 机 应 用 研 究
8EEK:2JH:3> VA=AJB2F 3D\34ELHAB=
^3K_)( Z3_.
8LG1!"#*