编码:用二进制数据表示并存储字符。
解码:将存储在计算机中的二进制数据解析显示出来。
字符集:是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各
国家文字、标点符号、图形符号、数字等。
1. ASCII 字符集&编码
ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)
是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语,而其扩展版本 EASCII
则可以勉强显示其他西欧语言。
ASCII 编码:使用 7 位表示一个字符,共 128 字符。ASCII 扩展字符集使用 8 位表示一
个字符,共 256 字符,扩展了西欧的常用字符。
缺点:只能显示 26 个基本拉丁字母、阿拉伯数目字和英式标点符号,因此只能用于显
示现代美国英语。其扩展也只能使用西欧常用字符,对其他语言则无能为力。
2. GBXXXX 字符集&编码
2.1 GB2312
中国大陆把那些 127 号之后的扩展字符(EASCII)取消掉,规定:一个小于 127 的字
符的意义与原来相同,但两个大于 127 的字符连在一起时,就表示一个汉字,前面的一个
字节(高字节)从 0xA1 用到 0xF7,后面一个字节(低字节)从 0xA1 到 0xFE,这样我们
就可以组合出大约 7000 多个简体汉字了。在这些编码里,还把数学符号、罗马希腊的 字
母、日文的假名们都编进去了,连在 ASCII 里本来就有的数字、标点、字母都统统重新编
了两个字节长的编码,这就是常说的"全角"字符,而原来在 127 号以下的那些就叫"半角"字
符了。
高字节 低字节
0xA1~0xF7 0xA1~0xFE
2.2 GBK
GB2312 只收录 6763 个汉字,有不少汉字、台湾及香港使用的繁体字、日语及朝鲜语
汉字等,并未有收录在内。于是微软利用 GB2312 未使用的编码空间,收录 GB13000 全部
字符制定了 GBK 编码,但编码方式与 GB13000 完全不同。
评论0
最新资源