没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
各种编码规范以及发展史
一.【英文编码】
ASCII 编码:
用来为空格,标点,数字,大小写英文字母编码,8 位,127 个。称为半角字符。
扩展字符集:8 位(128-255)加入某些特殊的形状,新字母和符号
二.【汉字编码】
以下的汉字编码被程序员们统称为:DBCS(Double Bytes Character Set)。
在此标准系中,最大的特点是:两个字节长的汉字字符和一个字节长的英文字
符并存于同一套编码方案里,即一个汉字顶两个英文字符。
GB2312 编码:(是对 ASCII 编码的中文扩展)取消了 127 位之后的编码,将两个大于
127 的字符连在一起,称为全角字符。包含了 ASCII 编码里本来的数字,字母,符号,都
用两个字符表示。
GBK 编码:(对 GB312 编码的中文扩展)不再要求低字节是 127 号之后的内码,只要
第一个字节是大于 127 的就固定认为是一个汉字的开始。增加了新的汉字(包括繁体字)
和符号。
GB18030 编码:(对 GBK 编码的扩展)增加了少数民族的字。
ANSI 编码,实际上就是 GB 系列的编码方式。
三.【ISO 统一的编码】
UNICODE 编码:可以组合 65535 个不同的字符。废除了所有的地区性编码方案,包括
了所有的文化,所有的字母和符号的编码。 都是两个字节的,包括英文。对于原来的
ASCII 编码的字符保持原来的编码不变,只是将原来的 8 位扩展为 16 位,高 8 位永远是
0。但是没有与现有的编码兼容,这使得 GBK 与 UNICODE 在汉字的内码编排上是完全不
一样的,没有算法可以实现二者的转化,只能通过查表来实现。
四.【UTF 标准】
UNICODE 标准如何在网络上传输是一个问题,于是面向传输的众多的 UTF(UCS Transfer
Format)标准出现了。UTF8 每次 8 个位传输数据,UTF16 每次 16 个位。为了传输的可靠
性,从 UNICODED 到 UTF 时并不是直接的对应,而是要过一些算法和规则来转换。(不
同的计算机对高低字节发送的先后顺序不同。)
五.UNICODE 到 UTF8 的转换规则
UNICODE UTF8
0000 — 007F
0XXXXXXX
0080 — 07FF
110XXXXX 10XXXXXX
0800 — FFFF
1110XXXX 10XXXXXX 10XXXXXX
资源评论
peace2010
- 粉丝: 12
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功