没有合适的资源?快使用搜索试试~ 我知道了~
2_2021语料库1
需积分: 0 0 下载量 149 浏览量
2022-08-03
19:34:59
上传
评论
收藏 1.37MB PDF 举报
温馨提示
试读
76页
语料库(语言样本)及初步统计分析杨沐昀教育部-微软语言语音重点实验室MOE-MS Joint Key Lab of NLP and Speech (HIT)•自
资源详情
资源评论
资源推荐
语料库(语言样本)
及初步统计分析
杨沐昀
教育部-微软语言语音重点实验室
MOE-MS Joint Key Lab of NLP and Speech (HIT)
• 自然语言是一个系统
• 语言是主要以呼吸器官发声为基础来传递讯息的符号系统,是人
类重要的交际工具和存在方式之一
• 用于表达事物、动作、思想、状态的一个系统
• 语言系统具有内在的层次和粒度
• 自然语言集合:某种程度是无限集
• 有限:目前世界现存语言大约6909种,只有2000多种语言有书面
文字,2500种语言濒危
• 无限:一种语言中句子以上的粒度数目,一般认为是无限的
• 语料库:对语言集合的采样
• 时间、空间(地域、领域)上的语言样本特点
自然语言: 数据视角
主要内容
• 语料库:语言数据的采样
• 语料库概念
• 语料库的发展
• 语料库的种类
• 典型语料库
• 语料加工
• 文本处理
• 格式标注与数据标注
• 语料库应用: 统计加工
• 什么是语料库?
• 语料库(corpus)一词在语言学上意指大量的文本,通常经过整理,
具有既定格式与标记
• 语料库语言学(Corpus Linguistics):语言研究主流
• 根据篇章材料对语言的研究称为语料库语言学(K. Aijmer & B.
Aitenberg, 1991)
• 以语料为语言描写的起点或以语料为验证有关语言 的假说的方法称为
语料库语言学(D. Crystal, 1991)
• 基于现实生活中语言运用的实例进行的语言研究称 为语料库语言学
(T. McEnery & A. Wilson, 1996)
• 语料库语言学从上世纪60年代开始,发展至今已有50多
年历史
语料库
• 20世纪50年代中期之前:早期
• 语料库在语言研究中被广泛使用:语言习得、方言学、语
言教学、句法和语义、音 系研究等
• 1957~20世纪80年代初期:沉寂时期
• 1957年 Chomsky 的《句法理论》及其以后一系列著作的
发表,根本改变了语料库语言学的发展状况。
• Chomsky 及其转换生成语法学派批判早期的语料库研究方
法:
• 基于语料库的研究方法有误
• 语料的不充分性
语料库—发展历史
剩余75页未读,继续阅读
金山文档
- 粉丝: 24
- 资源: 306
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0