28.4 每课一问 5. 如果汉字使用字母、笔画和部首应如何编码? (答案:拼音、五笔输入法就是这样编码的) 6. 查阅资料,了解 UTF-16 的四字节编码方式。 (答案:UTF-16对 Unicode字符集里的字符用双字节或者四字节进行表示。字符编号在 0 到 65535 的统一用 2 个字节来表示,将每个字符的编号转换为 2 字节的二进制数,从 0x0000 到 0xFFFF。 对于编号大于 0xFFFF 的,也就是编号从 0x010000 到 0x10FFFF 的字符,以如下方式进行编码:将该字符的编号减去 0x010000,减去之后范围从 0x00000到 0xFFFFF,刚好用 20个 bit位 可以表示,将前 10个 bit位作为高位与 0xD800 相加,后 10 个 bit 位作为低位和 0xDC00 相加,因为前 10 个 bit 位在前面补 6 个 0,凑 成双字节后,范围是从 0x0000 到 0x03FF,因此加上 0xD800 后 范围从 0xD800 到 0xDBFF,同样的后 10 个 bit 位加上 0xDC00 后范围从 0xDC00 到 0xDFFF,很巧妙的 是,在 Unicode 字符集里,刚好编号 0xD800 到 0xDFFF 没有表示任何字符,因此在解 码的 时候如果发现高位的两个字节是在 0xD800 到 0xDBFF 就知道,这两个字节应该 和低位的 2 个字节作为一个整体,即以四字节为单位进行解析。UCS-2 字符集是 Unicode 中编号从 0 到 65535 的字符, 编码方式与 UTF-16 的双字节字符编码方式完全 相同,就是对编号从 0 到 65535 的字符,按双字节进行编码。) 7. 使用字模软件自己生成字模并验证,尝试修改字模选项的配置。(可使用串口打印字模 的方式快速验证,把生成的字模替换成原“当”字的字模,并修改打印函数) 8. 找一些网页,查看它的编码方式,除了历史遗留问题,解释为什么目前有的网页仍不 采用 UTF-8 编码。(使用浏览器查看网页源文件,在前几行 HTML代码中一般会看到
- 粉丝: 21
- 资源: 4170
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助