常 用 编 码 方 式 中 英 文 对 照 表
编码方式
说明
ASCII
7
位编码,编码范围是
0x00-0x7F
。
ASCII
字符集包括英文字母、阿拉伯数字和标
点符号等字符。其中
0x00-0x1F
和
0x7F
共
33
个控制字符
GB2312
基于区位码设计的,区位码把编码表分为
94
个区,每个区对应
94
个位,每个字
符的区号和位号组合起来就是该汉字的区位码。区位码一般
用
10
进制数来表示,
如
1601
就表示
16
区
1
位,对应的字符是
“
啊
”
。在区位码的区号和位号上分别加上
0xA0
就得到了
GB2312
编码
GBK
GB2312
编码的超集,向下完全兼容
GB2312
,同时
GBK
收录了
Unicode
基本多
文种平面中的所有
CJK
汉字。同
GB2312
一样,
GBK
也支持希腊字母、日文假名
字母、俄语字母等字符,但不支持韩语中的表音字符(非汉字字符)。
GBK
还收录
了
GB2312
不包含的
汉字部首符号、竖排标点符号等字符
GB18030
向下兼容
GBK
和
GB2312
,兼容的含义是不仅字符兼容,而且相同字符的编码也
相同。
GB18030
收录了所有
Unicode3.1
中的字符,包括中国少数民族字符,
GBK
不支持的韩文字符等等
ISO-8859-1
单字节编码,向下兼容
ASCII
,其编码范围是
0x00-0xFF
,
0x00-0x7F
之间完全和
ASCII
一致,
0x80-0x9F
之间是控制字符,
0xA0-0xFF
之间是文字符号
UTF-16
变长编码,用两个字节对
BMP
内的字符编码,用
4
个字节对超出
BMP
(基本多语
言面,
Basic Multilingual Plane, BMP
)范围的辅助平面内的字符作编码
UTF-8
UCS
字符集(通用字符集,
Universal Character Set
)的另一种编码方式,
UTF-16
的每个单元是两个字节(
16
位),而
UTF-8
的每个单元是一个字节(
8
位)。
UTF-16
中用一个或两个双字节表示一个字符,
UTF-8
中用一个或几个单字节表示一个字符