常用编码方式中英文对照表
编码方式 说明
ASCII
7
位编码,编码范围是
0x00-0x7F
。
ASCII
字符集包括英文字母、阿拉伯数字和标
点符号等字符。其中
0x00-0x1F
和
0x7F
共
33
个控制字符
GB2312
基于区位码设计的,区位码把编码表分为
94
个区,每个区对应
94
个位,每个
字符的区号和位号组合起来就是该汉字的区位码。区位码一般 用
10
进制数来表
示,如
1601
就表示
16
区
1
位,对应的字符是“啊”。在区位码的区号和位号上分别
加上
0xA0
就得到了
GB2312
编码
GBK
GB2312
编码的超集,向下完全兼容
GB2312
,同时
GBK
收录了
Unicode
基本多
文种平面中的所有
CJK
汉字。同
GB2312
一样,
GBK
也支持希腊字母、日文假名
字母、俄语字母等字符,但不支持韩语中的表音字符(非汉字字符)。
GBK
还收
录了
GB2312
不包含的 汉字部首符号、竖排标点符号等字符
GB18030
向下兼容
GBK
和
GB2312
,兼容的含义是不仅字符兼容,而且相同字符的编码也
相同。
GB18030
收录了所有
Unicode3.1
中的字符,包括中国少数民族字
符,
GBK
不支持的韩文字符等等
ISO-8859-1
单字节编码,向下兼容
ASCII
,其编码范围是
0x00-0xFF
,
0x00-0x7F
之间完全和
ASCII
一致,
0x80-0x9F
之间是控制字符,
0xA0-0xFF
之间是文字符号
UTF-16
变长编码,用两个字节对
BMP
内的字符编码,用
4
个字节对超出
BMP
(基本多语
言面,
Basic Multilingual Plane, BMP
)范围的辅助平面内的字符作编码
UTF-8
UCS
字符集(通用字符集,
Universal Character Set
)的另一种编码方式,
UTF-
16
的每个单元是两个字节(
16
位),而
UTF-8
的每个单元是一个字节(
8
位)。
UTF-16
中用一个或两个双字节表示一个字符,
UTF-8
中用一个或几个单字
节表示一个字符