字符集和编码整理
Anthonywei 2011-10-6
字符集的概念:
是一个系统支持的所有抽象字符的集合。字符是各
种文字和符号的总称,包括各国家文字、标点符号、
图形符号、数字等。
常见字符集名称: ASCII 字符集、 GB2312 字符集、
BIG5 字符集、 GB18030 字符集、 Unicode 字符
集等。
基本概念
编码的概念:
字符编码就是将符号转换为计算机可以接受的数字
系统的数,称为数字代码。
简单说:字符集就是文字符号对应的计算机二进制数
据,比如汉字“啊”的 GB2312 的值为 0xB0A1
很多情况下,字符集和编码一般都是对应的,但是也
有特殊的比如 UTF-8 只是编码,没有字符集。
基本概念
天朝专家把 127 号之后的奇异符号们(即 EASCII )
取消掉,规定:一个小于 127 的字符的意义与原来
相同,但两个大于 127 的字符连在一起时,就i表示
一个汉字,前面的一个字节(他称之为高字节)从
0xA1 用到i 0xF7 ,后面一个字节(低字节)从
0xA1 到 0xFE ,这样我们就可以组合出大约 7000
多个简体汉字了。在这些编码里,还把数学符号、罗
马希腊的i字母、日文的假名们都编进去了,连在
ASCII 里本来就有的数字、标点、字母都统统重新编
了两个字节长的编码,这就是常说的 " 全角 " 字符,
而原来在 127 号以下的那些就叫 " 半角 " 字符了。
GBK 编码
- 1
- 2
- 3
前往页