### 信息技术标准化技术委员会汉字内码扩展规范(GBK)
#### 概述
《信息技术标准化技术委员会汉字内码扩展规范(GBK)》是中国信息技术标准化技术委员会制定的一项国家标准,旨在解决GB2312标准中汉字数量不足的问题。GBK编码标准不仅包含了GB2312的所有汉字及符号,并且增加了大量的新字符,特别是对繁体汉字的支持。
#### GBK编码背景
在GB2312编码出现之后,虽然它已经涵盖了大部分简体汉字以及常用符号,但是仍然存在一些局限性,比如对于部分古籍、少数民族语言文字以及一些专业领域的特殊字符支持不足。为了解决这些问题,GBK编码应运而生。GBK编码标准于1995年发布,全称为“汉字内码扩展规范”,由中华人民共和国国家技术监督局提出,中国电子技术标准化研究所负责起草。
#### GBK编码特点
1. **兼容性**:GBK编码保持了与GB2312编码的兼容性,这意味着所有GB2312中的汉字和符号在GBK中都有相同的编码。
2. **扩展性**:GBK增加了大量的新字符,包括但不限于:
- 更多的简体汉字。
- 繁体汉字及其变体。
- 少数民族文字。
- 常见的日韩汉字。
- 专业领域使用的特殊符号等。
3. **编码范围**:GBK编码使用双字节表示,其范围从0x8140到0xFEFE(除去0x9FBB到0x9FEF),共计21888个字符。
4. **编码规则**:GBK采用了与GB2312类似的编码规则,即高位字节(H)和低位字节(L)分别表示不同的区位码,其中H表示区码,L表示位码。
5. **兼容Unicode**:GBK编码在一定程度上也考虑到了与Unicode的兼容性问题,尽管两者之间并非完全一一对应,但在许多情况下可以实现相互转换。
#### GBK编码示例
以下是从文档的部分内容中抽取的一些字符编码示例:
- **8101**:丂
- **8102**:丄
- **8103**:丅
- **8104**:丆
- **8105**:丏
- **8106**:丒
- **8107**:丗
- **8108**:丟
- **8109**:丠
- **810A**:両
- **810B**:丣
- **810C**:並
- **810D**:丩
- **810E**:丮
- **810F**:丯
- **8110**:丱
- **8111**:丳
- **8112**:丵
- **8113**:丷
- **8114**:丼
- **8115**:乀
- **...**
- **8901**:伦
- **8902**:倯
- **8903**:倰
- **8904**:倱
- **8905**:倲
- **8906**:倳
- **8907**:倵
- **8908**:倶
- **8909**:倷
- **890A**:倸
- **890B**:倹
- **890C**:倻
- **890D**:倽
- **890E**:倿
- **890F**:偀
- **8910**:偁
- **8911**:偂
- **8912**:偄
- **8913**:偅
- **8914**:偆
- **8915**:伟
- **8916**:偊
- **8917**:偋
- **8918**:偍
通过这些示例可以看到,GBK编码覆盖了大量的汉字和符号,极大地丰富了计算机系统对于汉字的支持能力,满足了不同领域的实际需求。此外,GBK编码还为后续的GB18030等更高级别的汉字编码标准奠定了基础。