什么是汉字国标码、汉字外部码、汉字内部码、汉字字型码,区位码
为适应计算机处理汉字信息的需要,我国于 1981 年发布了《信息处理交换用汉字编码
字符集 基本集》GB2312-80 GB2312 将代码表分为 94 个区,对应第一字节;每个区 94 个
位,对应第二字节,两个字节的值分别为区号值和位号值加 32(2OH),因此也称为区位 码。
01-09 区为符号、数字区,16-87 区为汉字区,10-15 区、88-94 区是有待进一步标准化的空
白区。GB2312 将收录的汉字分成两级:第 一级是常用汉字计 3755 个,置于 16-55 区,按
汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计 3008 个,置于 56-87 区,按部首
/笔画顺序排列。故而 GB2312 最多能表示 6763 个汉字
汉字系统对每个汉字规定了输入计算机的代码,即汉字的外部码,键盘输入汉字是输入
汉字的外部码。计算机为了识别汉字,要把汉字的外部码转换成汉字的内部 码,以便进行
处理和存储。为了将汉字以点阵的形式输出,还要将汉字的内部码转换为汉字的字形码,确
定一个汉字的点阵。并且,在计算机和其它系统或设备需要 信息、数据交流时还必须采用
交换码。 (1) 外部码 外部码是计算机输入汉字的代码,代表某一个汉字的一组键盘符号。
外部码也叫汉字输入码。为了建立友好的用户界面,输入码的规则必须简单清晰、直观易学、
容 易记亿、操作方便、码位短、输入速度快、重码少,既符合初学者的学习,又能满足专
业输入者的要求,便于盲打。汉字的输入方法不同,同一个汉字的外码可能不 一样。人们
根据汉字的属性(汉字字量、字形、字音、使用频度)提出了数百种汉字外码的编码方案。由
于用户不同,用途不同,各自喜爱的编码方式也不尽相同, 故对用什么编码方案不能强求
统一。例如拼音码和五笔字型比较受一般用户的欢迎。 (2) 内部码 汉字内部码亦称为汉字
内码或汉字机内码。计算机处理汉字,实际上是处理汉字的代码。当计算机输入外部码时,
通常要转成内部码,才能进行存储、运算、传送。 一般用二个字节表示一个汉字的内码。
内部码经常是用汉字在字库中的物理位置表示,如汉字在字库中的序号或汉字在字库中的存
储位置表示。注意一般情况下,汉 字的内部码不能与西文字符编码(ACSII 码、EBCDIC 码
等
)发生冲突,并容易区分汉字与西文字符;尽可能占用少的字节表示尽可能多的汉字;与
标准交 换码兼容(与交换码有尽可能简单明确的对应关系;运算时不产生二义性和不确定
性)。 除了二字节汉字内部码外,还有三字节内部码、四字节内部码、带引导码的汉字内部
码、带符号的汉字内部码、带括号的汉字内部码等。 (3) 交换码 当计算机之间或与终端之
间进行信息交换时,要求它们之间传送的汉字代码信息完全一致,国家规定了信息交换用的
标准汉字交换码"GB312-80 信息交换用 汉字编码字符集(基本集)",即国标码。国标码共收
集了 7445 个图形字符,其中汉字 6763 个,一般符号、数字、拉丁字母、希腊字母、汉语拼
音等 709 个。 (4) 汉字输出码 又称汉字字形码或汉字发生器的编码。为输出汉字,对汉字
字形经过点阵的数字化后的一串二进制数称为汉字输出码。
汉字内部码:汉字在计算机内的编码(简称内码)
ASCII 码用 1 个字节(最左边位为 0)表示 1 个英文字符
汉字用两个字节(共 16 位二进制数编码)表示, 两字节首位都是“1” ,这种汉字编码最多
可以表示 27×27=128×128=16384 个汉字
字型码是一些汉字输入软件所定义的汉字编码规则,是把汉字抽象为一些字根(字型)组合
出来的,根据书写规则编码。
评论2
最新资源