没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
基于大规模语料库,建立了汉语依存句法网络,并从复杂网络的角度对该网络进行了系统的实验考察。实验结果表明汉语依存句法网络具有复杂网络的两个基本性质:小世界效应和无标度特性,并在其他方面也体现了复杂网络的重要性质。汉语的这些句法上的统计特性,与捷克语、德语和罗马尼亚语等极为相似,说明虽然不同语言有着极为不同的句法规则,但它们具有类似的统计特性,这种共性对人类语言本质的研究具有一定的启发意义。
资源推荐
资源详情
资源评论
第
5
卷第
2
期
2008
年
6
月
复杂系统与复杂性科学
COMPLEX
SYSTEMS
AND
COMPLEXITY
SCIENCE
Vo
l.
5 No.2
Jun. 2008
文章编号
:1672
-3813
(2008)02
-0037
-0
9
汉语依存句法网络的复杂网络性质
刘知远,郑亚斌,孙茂松
(清华大学计算机科学与技术系,智能系统与技术国家重点实验室,清华信息科学与技术国家实验室,北京
100084
)
摘要:基于大规模语料库,建立了汉语依存句法网络,并从复杂网络的角度对该网
络进行了系统的实验考察
。
实验结果表明汉语依存句法网络具有复杂网络的两个
基本性质:小世界效应和元标皮特性,并在其他方面也体现了复杂网络的重妥性
质
。
汉语的这些句法上的统计特性,与捷克语、德语和罗马尼亚语等极为相似,说
明虽然不同语言有着极为不同的句法规则,但它们具有类似的统计特性,这种共性
对人类语言本质的研究具有一定的启发意义
。
关键词:依存句法;汉语;复杂网络
;小世界;元标度;同现
中图分类号
:
N9
4
jHl
文献标识码
:A
Complex Network Properties of Chinese Syntactic Dependency Network
LIU
Zhi-yuan
,
ZHENG
Ya-bin
, SUN
Mao-song
( State
Ke
y Laboratory
on
Intelligent Techn
ology
and
S
ys
tems
Tsinghua
Na
tional Laborat
ory
for
Information Science
and
Technology
Department
of
Compu
ter Science and Technology,
Tsi
吨
hua
Univers
it
y,
B
e
iji
吨
100084
,
China )
Abstract
: In
this
paper
, we bui1d
Chinese
syntactic
dependency
network
based
on
a 1arge
corp
us
and
a-
dopt
comp1ex n
etwork
as
the
too1
to ana1yze
the
1anguage
network
.
The
network
shows two
important
fea-
tures:
th
e
small
world
effect
and
th
e sca1e-free
property.
The
s
tatisti
c
a1
properties
are
simi1ar to
Czech
,
German
and
Romanian
which
indicate
that
there
are
underlying
common
characteristics
among
different
human
1anguages
in
desp
ite of
their
different
grammar
ru1es .
The
common
characteristics
might
make
sense
for
the
s
tudy
of
evo1ution
and
essence
of
human
1anguages.
Key
words:
dependenc
y
grammar
j
Chinese
j comp1ex
network
j
small
wor1d j sca1e free j
co-occurrence
1
引言
最近对复杂网络的研究取得了引人注目的成果
[
1 - 5
J
。
研究发现,各领域中有着不同拓扑结构的复杂系
统,如
Internet
[6
- 7
J
、
万维网
[
8
-
9
J
、生物学中的食物网
[
10
-
11
J
以及社会网络
[
12
-
14
J
都表现出类似的统计规律:这
些网络中节点间的距离都在一个非常小的数值徘徊,表现出小世界效应;同时网络节点的连接度呈幕律分
布
。
人类语言也是典型的复杂系统
[
15
J
它在词法、句法
、
语义等层次上都表现出高度的复杂性
。
国外已有大
量的工作在英语等语言网络上进行
[
16
-1
7
J
包括词同现网络
[
1
町
、
词汇联想网络
[
19
-
20
J
、辞典
网络,如基于
Ro-
收稿日期:
2008
-
03
-
11
基金项目:
国家自然科学基金项目
(60573187
,
60621062
,
605201302
99
)
jf
者简介
:
Xi
J
知远(1
984
- )
,男,
山东泰安人
,博士研究生,主要研究方
向为自然语
言处理、复杂
网络
、数据挖掘等
。
. 38 .
复杂系统与复杂性科学
2008
年
6
月
get'
s
Thesaurus
的口,
20 -
21
J
、基于
Merriam-
Webste
自
Thesaurus
的
[2J
和基于
WordNet
的
[20
叫等等。其中对句法
网络的研究是语言网络研究的重要组成部分,吸引众多国外学者对其深入研究
[23
-27J
汉语作为世界最重要
的语言之一,其统计规律和性质,具有非常重要的参考意义和学术价值,因此本文将在句法层次考察汉语网
络的统计性质。据作者所知,在汉语句法网络上仅在小规模语料上有过初步实证研究
[28
-
29J
。
以往的研究表明人类语言遵循许多统计规律,其中最为著名的应该是词频上的齐夫定律[叫,但是这种
规律没有体现语言的句法性质。而句法是人类语言的关键[到因此在句法层次寻找和分析人类语言的统计
性质是一项有意义的工作。
句法是把词按一定顺序组合成短语或句子的规则的统称,这些规则精确地定义了句子中词与词的关系。
如果把每个词看作一个节点,用链接来表示它们在句中的句法关系,这样就形成句法网络。由于约有
87%
的句法联系发生在距离小于等于
2
的词之间,所以对词同现网络的研究[
18J
可以在一定程度上揭示语言的句
法统计性质。但这与精确定义的句法关系还有一定差距,并对远距离的句法关系束手无策,因此对句法网络
的研究是非常必要的工作。本文将以汉语的句法网络为研究对象,揭示其在小世界效应、无标度特性、层次
性、居间中心性和匹配度等方面表现出来的明显特性。
2
依存句法网络
本文根据依存句法的定义构造句法网络,称为依存句法网络。依存句法是法国语言学家
Lucien
Tesniere
提出的
[32J
。他认为句子的主要动词是该句的中心,支配着其他成分,而它本身不受任何其他成分支配。后
来,
Robinson
提出了依存句法的
4
大公理
[33
J : 1
)一个句子中只有一个独立成分
;2)
其他成分直接依存于某一
成分
;3
)任何一个成分都不能依存于两个或以上的成分
;4
)如果
A
成分能直接依存于
B
成分,而
C
成分在句
子中位于
A
或
B
之间的话,那么
C
或者直接依存于
A
,或者直接依存于
B
,或者直接依存于
A
和
B
之间的某
一成分。
依存句法描述了句子中词与词之间的句法关系,这种句法关系绝大部分是有向的,假定这个方向由修
饰语指向中心词。如"我爱天安门"这一个简单句中爱"是句子的中心词,而"我"和"天安门"是"爱"的修
饰语并与之相连。如图
la
所示,链接由修饰语"我"和"天安门"指向中心词"爱"。主语"我"和宾语"天安
门"作为修饰语都依存于"爱"。
依存于依存于
i--
问
-R---1
我
爱天安门
a
b
固
1
侬存旬法网络
由于依存句法关系的有向性,这种关系可以很自然地用有向网络表示。依存句法网络中的节点构成词
集合
v
= 1 s, I
(i
= 1
,…
,
n)
网络中的链接集合为
E
= I a'j I
(i
,j = 1
,…,时,即如果词
S
,
是词
Sj
的修饰语,那么
叫=
1
,否则
a'j
=0
。一个句子的依存句法结构可以看作是整个句法关系的子集。如图
lb
所示,虚线内的部
分就是"我爱天安门"这句话在句法网络中的子图。
在句法网络上,可以计算各种参数来考察其统计特性,如小世界效应
[34
J
无标度特性
[35
J
等。本文以清
华大学周强的
100
万词句法标注树库
[36J
作为语料库,根据周明、黄昌宁在
1994
年提出的汉语依存句法规
剩余8页未读,继续阅读
资源评论
weixin_38600432
- 粉丝: 1
- 资源: 920
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功