GB2312简体中文编码表及转换程序_gb2312编码在线转换中文,gb2312编码转换中文资源-CSDN文库

共4个文件

txt：2个

doc：1个

c：1个

5星 · 超过95%的资源需积分: 50 35 浏览量 2010-01-19 15:02:31 上传评论 4 收藏 135KB RAR 举报

GB2312简体中文编码表是早期中国计算机系统中广泛使用的字符编码标准，它在1970年代由中华人民共和国国家标准局制定，旨在解决中文信息处理的问题。该编码表包含了6763个常用汉字和一些特殊符号，分为两级，一级包括3755个常用汉字，二级包括3008个次常用汉字。每个字符用两个字节表示，前一个字节称为高位字节，后一个字节称为低位字节。 GB2312编码的结构基于区位码，将所有字符分为94个区，每个区有94个位，总共形成94x94=8836个可能的位置。实际使用中只使用了其中的一部分。每个区位对应一个16进制数字，高位字节的范围是0xB0至0xF7，低位字节的范围是0xA0至0xFE。例如，"中"字在GB2312中的编码为B0D0。为了在不同编码标准间进行转换，程序员通常会编写转换程序。在给定的压缩包中，"gb2unicode.c"文件很可能就是一个C语言编写的程序，用于将GB2312编码转换成Unicode编码。Unicode是一种国际通用的字符编码标准，它包含了世界上几乎所有的文字，包括汉字，使用统一的编码方式，解决了多语言环境下的兼容问题。 "Unicode、GB2312、GBK和GB18030中的汉字.doc"文件可能是关于这些编码标准中汉字对照的文档，提供了详细的对照表，帮助用户理解不同编码之间的转换关系。GBK是GB2312的扩展，增加了更多的汉字和符号，而GB18030则进一步扩大了字符集，包含了更多少数民族文字和繁体字。 "汉字编码表.txt"和"Unicode、GB2312、GBK和GB18030中的汉字_janvyking999的空间_百度空间.txt"这两个文本文件可能包含了汉字在不同编码中的对应信息，供开发者参考和使用。在实际开发中，理解和掌握这些编码标准及其转换方法至关重要，尤其是在处理中文字符时，如网页显示、数据存储、文件读写等场景。了解并能正确运用GB2312、Unicode、GBK和GB18030等编码，可以确保信息在各种系统和平台间的正确传递，避免出现乱码问题。通过分析和研究这些文件，开发者不仅可以深化对中文编码的理解，还能提高处理字符编码问题的能力。

资源推荐

资源详情

资源评论

收起资源包目录

package

GB2312简体中文编码表.rar （4个子文件）

Unicode、GB2312、GBK和GB18030中的汉字_janvyking999的空间_百度空间.txt 11KB

汉字编码表.txt 36KB

gb2unicode.c 258KB

Unicode、GB2312、GBK和GB18030中的汉字.doc 234KB

Unicode、GB2312、GBK 和 GB18030 中的汉字

2009-06-14 11:57

GB18030 有两个版本：GB18030-2000 和 GB18030-2005。GB18030-2000 是 GBK 的取代版本，它的主要特点是

在 GBK 基础上增加了 CJK 统一汉字扩充 A 的汉字。GB18030-2005 的主要特点是在 GB18030-2000 基础上增加了

统一汉字扩充 B 的汉字。本文数一数 GB18030 中的汉字，也顺便看看其它标准中的汉字。

1 Unicode 中的汉字

在 Unicode 5.0 的 99089 个字符中，有 71226 个字符与汉字有关。它们的分布如下：

Block 名称开始码位结束码位字符数

CJK 统一汉字

4E00 9FBB 20924

CJK 统一汉字扩充 A

3400 4DB5 6582

CJK 统一汉字扩充 B

20000 2A6D6 42711

CJK 兼容汉字

F900 FA2D 302

CJK 兼容汉字

FA30 FA6A 59

CJK 兼容汉字

FA70 FAD9 106

CJK 兼容汉字补充

2F800 2FA1D 542

如果不算兼容汉字，Unicode 目前支持的汉字总数是 20924+6582+42711=70217。

这里有一个细节。在早期的 Unicode 版本中，CJK 统一汉字区的范围是 0x4E00-0x9FA5，也就是我们经常提到的

20902 个汉字。当前版本的 Unicode 增加了 22 个字符，码位是 0x9FA6-0x9FBB。它们是：

那么 GB18030 是否支持这 22 个字符？后面还会讨论。

2 GB2312

1980 年的 GB2312 一共收录了 7445 个字符，包括 6763 个汉字和 682 个其它符号。汉字区的内码范围高字节从

F7，低字节从 A1-FE，占用的码位是 72*94=6768。其中有 5 个空位是 D7FA-D7FE。

这 6763 个汉字在 Unicode 中不是连续的，分布在 CJK 统一汉字字符区（0x4E00-0x9FA5）的 20902 个汉字中。

3 GBK

1995 年的汉字扩展规范 GBK1.0 收录了 21886 个符号，包括 21003 个汉字和 883 个其它符号。

这 21003 汉字包括 CJK 统一汉字区的 20902 个汉字。余下的 101 个汉字包括：

 增补汉字和部首 80 个，包括 28 个部首和 52 个汉字。GBK 编码是从 FE50-FE7E，FE80-FEA0。下图标注了

Unicode 编码。

在制定 GBK 时，Unicode 中还没有这些字符，所以使用了专用区的码位，这 80 个字符的码位是 0xE815-

0xE864。后来，Unicode 将 52 个汉字收录到“CJK 统一汉字扩充 A”。28 个部首中有 14 个部首被收录到“

首补充区”。所以在上图中，这些字符都有两个 Unicode 编码。

上图中淡黄色背景的 8 个部首被收录到“CJK 统一汉字区”的新增区域，即前面提到的 0x9FA6-0x9FBB。还有

淡灰色背景的部首被 Unicode 收录到“CJK 统一汉字扩充 B”（网友 slt 指正）。

请注意，淡黄色和淡灰色的 14 个字符按照 GB18030 还是应该映射到 PUA 码位。这 14 个字符与非 PUA

的映射关系只是网友找出来的，不是标准规定的。如果按照 GBK 编码，这 80 个字符应该全部映射到 PUA

位。GB18030 将其中 66 个字符映射到了非 PUA 码位。不过在 Windows 中，简体中文区域的默认代码页还是

GBK，不是 GB18030。

 CJK 兼容汉字区挑选出来的 21 个汉字。见下表：

汉字

GBK 编

码

Unicode 编

码

郎

FD9C F92C

凉

FD9D F979

秊

FD9E F995

裏

FD9F F9E7

隣

FDA0 F9F1

兀

FE40 FA0C

嗀

FE41 FA0D

﨎

FE42 FA0E

﨏

FE43 FA0F

﨑

FE44 FA11

﨓

FE45 FA13

﨔

FE46 FA14

礼

FE47 FA18

﨟

FE48 FA1F

蘒

FE49 FA20

﨡

FE4A FA21

﨣

FE4B FA23

﨤

FE4C FA24

﨧

FE4D FA27

﨨

FE4E FA28

﨩

FE4F FA29

内容反馈

zhwe2008

2013-06-20

有部分字转化不正确
yangxubj

2013-09-01

用过了，省去很多麻烦的输入操作
jianhui123_456

2014-11-22

很详细的，可以学习
hrbeu36

2013-04-16

程序很全，可以直接在keil里用
basc008

2013-09-27

有部分字转化不正确

xdc0459

粉丝: 23
资源: 7

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip