没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
第卷第期洛阳工业高等专科学校学报
15 4 Vol.15 No.4
年月
200512 Journal of Luoyang Technology College Dec. 2005
汉字信息处理
1
汉字信息处理是指用计算机对汉字表示的信息进行操
作和加工 如汉字输入 输出 识别等 处理过程主要经
历以下几个步骤
汉字输入 是指利用汉字的形 音或相关信息通过
1
各种方式把汉字输入到计算机中去的过程
汉字存储 一是指汉字内部码 交换码等汉字代码
2
的存储 二是指汉字字形的存储
汉字信息加工处理 由主计算机配合汉字设备对汉
3
字信息操作处理
汉字输出 是指将计算机内以数据形式表示的汉字
4
在显示终端 印字机等设备上输出的过程 其输出方式有
显示 打印 语言合成等 其中显示和打印是当前最主要
的输出方式
要使汉字信息处理系统能输出汉字字形 就必须在系
统中开辟一个存储汉字字形的存储区 这个存储区及其内
容就构成了汉字库 现在广泛使用点阵形式的汉字字形
库 以存放数字化的汉字点阵数据
汉字的字形结构
2
汉字的字形是汉字信息中最主要的信息 汉字字形是
指用笔画构成的汉字形体结构的二维图形 为了获得汉字
的字形信息以利于计算机处理 人们常把方块状汉字在不
同层次上进行分解 以满
足不同加工处理的需要
位点是指把汉字方形区细
分成 等个
16162424
小方格 每个小方格便是
一个 位点 在方形区
内 凡笔画经过的小方格
就形成黑点 定义为
笔画不经过的小方格
1
即是白点 定义为
如图所示为 点阵的 王
188
这样一个小方格正好和一个二进制数位相对应 用汉
字方形区内二进制数位组成的汉字字形就称为汉字的点阵
字形 一个汉字系统所允许使用的每个汉字字形 被数字
化后便形成各自的汉字字形码 存放于系统的汉字字形库
存储器中 为显示器或印字机等输出设备提供可见的汉字
字形的代码 如图的 王 字的汉字字形码为
1
000000001111111000010000011111000001000000010000111
各种不同规格的点阵字形所需的存储空间
1111000000000
不尽相同 质量较高的字形 其汉字的点阵随之增大 需
要的存储空间也随之增多
汉字的压缩存储
3
当前汉字系统所采用的汉字字形点阵有
16 16
24 2432 3264 64128
等不同的规格 由于
128
汉字属于大字符集 对于个汉字 若采用高质量 高
7445
精度的点阵 则存储容量是相当可观的 如果采用字形压
缩技术 则可大幅度地减少存储容量需求
采用压缩技术把字形信息压缩后存入字库 当需要输
出某个汉字时 首先找到该字已被压缩的信息 然后经过
压缩变换的逆过程将其恢复成最终输出的点阵信息 最后
将其装配成汉字 按此方法建立的汉字库称为压缩型汉字
库
对压缩技术的性能评价有以下个标准 压缩率
41
用来衡量压缩后字形存储容量减少的程度 其公式为
L C
/
L L
为压缩前字形所占的存储字节数
C
为
压缩后字形所占的存储字节数 失真率
2
用来衡量压
缩后字形相对于原字形的失真程度 其公式为
E
/
Q Q
为压缩前字形的信息量
E
为字形还原后失真的信息量
还原速度
3
R
用来表示将压缩字形还原成原点阵字形的
速度 其公式为
R
还原的汉字数秒 压缩字形的生成
/4
能力和压缩后字形的变换能力
哈夫曼树与哈夫曼编码
4
哈夫曼树 又称最优树 是一类带权路径长度最短的
树 树的带权路径长度为树中所有叶子结点的带权路径长
度之和 记作
WPL
w
1
l
1
w
2
l
2
w
n
l
n
其中
w
i
为第
i
个叶子结点的权值
l
i
为第
i
个叶子结点的
路径长度
1
i n
哈夫曼树在汉字压缩中的应用
于国华 丁国强
洛阳工业高等专科学校计算机系 河南洛阳
471003
摘要
提出了一种利用哈夫曼树实现汉字点阵字形的压缩存储的方案 该方案可以有效减少当前汉字系统用于
存储汉字字形的存储量需求
关键词
汉字字形 压缩 哈夫曼树
中图分类号 文献标识码 文章编号
TP399 A 1008-8814(2005)04-0042-02
收稿日期
2005-07-02
作者简介 于国华男山东青岛人硕士讲师主要从事计算机
(1973-),,,,,
应用方面的研究
.
图
1
点阵的 王
88
万方数据
资源评论
zaizai511276176
- 粉丝: 0
- 资源: 5
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功