字符编码笔记: ASCII,Unicode 和 UTF-8
阮一峰 发表于 2007 年 10 月 28 日 | 分类: 首页 -> 档案 -> IT 技术
今天中午,我突然想搞清楚 Unicode 和 UTF-8 之间的关系,于是就开始在网上
查资料。
结果,这个问题比我想象的复杂, 从午饭后一直看到晚上 9 点,才算初步搞清楚。
下面就是我的笔记, 主要用来整理自己的思路。 但是,我尽量试图写得通俗易懂,
希望能对其他朋友有用。 毕竟,字符编码是计算机技术的基石, 想要熟练使用计
算机,就必须懂得一点字符编码的知识。
1. ASCII 码
我们知道, 在计算机内部, 所有的信息最终都表示为一个二进制的字符串。 每一
个二进制位( bit )有 0 和 1 两种状态,因此八个二进制位就可以组合出 256 种
状态,这被称为一个字节( byte )。也就是说,一个字节一共可以用来表示 256
种不同的状态,每一个状态对应一个符号,就是 256 个符号,从 0000000 到
11111111。
上个世纪 60 年代,美国制定了一套字符编码,对英语字符与二进制位之间的关
系,做了统一规定。这被称为 ASCII 码,一直沿用至今。
ASCII 码一共规定了 128 个字符的编码,比如空格 “ SPACE”是 32(二进制
00100000 ),大写的字母 A 是 65(二进制 01000001 )。这 128 个符号(包括
评论0
最新资源