没有合适的资源?快使用搜索试试~ 我知道了~
中文信息处理期末整理1
需积分: 0 0 下载量 125 浏览量
2022-08-03
12:33:37
上传
评论
收藏 1.18MB PDF 举报
温馨提示
试读
13页
第一章绪论1、中文信息处理(语言信息处理)用计算机对自然语言在各个层次(语素、词、短语、句子、段落、篇章)上的各种表现形式(图像、声音、文本)的信息进行处理:输
资源详情
资源评论
资源推荐
第一章 绪论
1、中文信息处理(语言信息处理)
⚫ 用计算机对自然语言在各个层次(语素、词、短语、句子、段落、篇章)上的各种表现
形式(图像、声音、文本)的信息进行处理:输入、输出、转换、存储、压缩、检索、
抽取和提炼。
⚫ 语言信息处理往往是“用计算模型”而非仅仅是“用计算机”。
2、训练集、开发集、测试集
通常把经过人工标注或人工校对的实验用语料库划分为训练集、开发集、测试集三个集合,
训练集 用于提供模型参数的语料集
开发集 用于实验过程中检验和改进模型性能的语料集
测试集 用于实验结束后最终评判模型性能的语料集
例如,将实验用语料划分为 10 份,其中开发集和测试集各 1 份,其余 8 份作为训练集。
3、PRF
正确率:又称精确率(Precision),正确处理的实例个数占所处理的实例个数的比率。
例如,人名识别的正确率等于正确识别的人名个数除以系统认为是人名的个数。
召回率:(Recall),正确处理的实例个数占应该处理的实例个数的比率。例如,人名
识别的召回率等于正确识别的人名个数除以文本中实有的人名个数。
调和平均值:(F-measure),正确率和召回率的综合表示,F=(
2
+1)PR/(
2
R+P), 通
常取 =1,则 F=2PR/(R+P).
4、Topline:测试成绩的乐观估计。通常以人工处理的成绩作为 Topline。例如自动分词的顶
线是人工分词。
Baseline:测试成绩的保守估计。通常用一种最简单可行的方法的成绩作为 BaseLine。
例如自动分词的基线是最大匹配法分词。
5、封闭测试:运用从训练集里获取的数据(模型参数或规则)来测试训练集本身,目的是
对模型的性能有初步了解。但是,封闭测试成绩可能主要反映模型对训练集的过度学习(学
了太多琐碎的、依赖于罕见语境的数据)。
开放测试:运用从训练集里获取的数据来对测试集进行测试,目的是检验知识的覆盖能
力。开放测试成绩通常低于封闭测试,但能够更真实地反映模型性能。
CSDN:南浔Pyer
第二章 汉字处理
1、列举你所知道的字符编码集
等长码:GB2312、GBK、UTF-16
变长码:UTF-8、GB18030
GB2312:6763 个汉字,不收繁体字
Big5:港台,13053 个汉字,繁体字
GBK:兼容 GB2312,含繁体字
GB18030 :1-4 字节编码方案,变长码
Unicode 统一码:UTF8(变长)、UTF16(等长)
ASCII
CSDN:南浔Pyer
第三章 语言的表示形式
1、规则
规则是语言知识的经典表示形式,理性主义的方法通常叫做“基于规则”的方法。一般
形式是 if…,then…,例如:
汉语语音规则:音节 → 声母+韵母+声调
词法规则:noun(复数) → noun(单数)+s
句法规则:S → NP+VP
规则库是用于处理某一类问题的规则的集合,例如词法规则库、句法规则库。
评价指标:
覆盖率:一条规则的条件被满足的次数与全部处理次数之比。
条件被满足,动作就会执行。但动作未必正确。该指标用来表示规则的使用频率,覆盖
率高的规则,表达颗粒度大的知识。
正确率:一条规则获得正确处理结果的次数与该规则的条件被满足的次数之比。
该指标用来表示知识的质量。
好的规则应该是覆盖率和正确率都高
2、知识库
一种是指专家系统设计所应用的规则集合,包含规则所联系的事实及数据,它们的全体
构成知识库。这种知识库是与具体的专家系统有关,不存在知识库的共享问题;另一种是指
具有咨询性质的知识库,这种知识库是共享的,不是一家所独有的。从今后的发展来看,巨
型知识库将会出现,还依赖于硬件及软件条件的发展。下一代计算机所应考虑的重要问题之
一是知识库的设计,以知识库为背景的知识库公共管理系统机构设计。
3、电子词典
电子词典是语言知识的常见表现形式,通常存储于数据库,便于计算机存取。
狭义的“电子词典”专指词语知识库,每条记录是一个词或固定短语,有词性、词类、词
义、读音、词频等字段。
广义的“电子词典”泛指语言知识库,其条目不限于词。包括计算机可读的字典、短语数
据库、语素数据库、语音数据库、地名库、人名库、译名库等等
列举你所知道的几种电子词典:
⚫ 北大:现代汉语语法信息词典:GBK
一部面向语言信息处理的大型电子词典,词典采用数据库文件格式,有总库和各词类分库,
其中动词分库尤为详细,对于现代汉语的自动句法分析有重要价值。
⚫ 梅家驹:同义词词林 【中英文双语知识网络。】
⚫ 董振东:知网(Hownet) 【突出优点是词义代码,可据此计算词义之间的距离或
相似度。】
知网中的“概念”相当于一个词义,概念是用一种知识描述语言来组织的一组“义原”,
分为事件、实体、属性、属性值、动态角色等类别。
区别:规则库通常存储那些颗粒度较大的语言知识,电子词典通常存储那些颗粒度较小
的语言知识。
CSDN:南浔Pyer
剩余12页未读,继续阅读
色空空色
- 粉丝: 53
- 资源: 331
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0