【免费】字符编码资料资源-CSDN文库

共45个文件

gif：13个

js：11个

htm：9个

需积分: 0 84 浏览量 2008-01-14 15:14:52 上传评论收藏 173KB RAR 举报

资源详情

资源评论

资源推荐

收起资源包目录

字符编码.rar （45个子文件）

字符编码

编码知识_[典].txt 32KB

JSP中文乱码问题的解决 - 七小的blog - CSDNBlog.files

print.css 748B

WebResource.axd 21KB

counter.js 4KB

showgm.js 571B

authorship.gif 97B

100x30_Logo.gif 2KB

xml.gif 429B

showads.js 2KB

PoweredByAsp.Net.gif 3KB

style.css 10KB

urltag.aspx 1KB

字符，字节和编码 - Characters, Bytes And Encoding_[典].htm 79KB

如何在jsp页面中将数据库中编码格式为WE8DEC的字符转换___ Oracle - 开发 - CSDN社区 community_csdn_net.htm 15KB

Java中文问题及最优解决方法_[典].htm 81KB

Java Servlet-Jsp多语言解决方案.files

news06_pic1.gif 3KB

count(1).htm 0B

foot.js 493B

ui.js 8KB

news06_pic2.gif 217B

art_down.js 446B

count.htm 23B

bg_2.gif 72B

news06_pic3.gif 693B

ad_top.js 2KB

style.css 985B

ad_down.js 0B

JSP中文乱码问题的解决 - 七小的blog - CSDNBlog.htm 50KB

Java Servlet-Jsp多语言解决方案.htm 28KB

encoding-1.txt 2KB

encoding-2.html 46KB

关于java中文乱码问题一些解决方案和经验.html 7KB

如何在jsp页面中将数据库中编码格式为WE8DEC的字符转换___ Oracle - 开发 - CSDN社区 community_csdn_net.files

logo_csdn.gif 4KB

topic.css 8KB

counter.js 4KB

book_468_60.gif 12KB

Board.files

ad.gif 15KB

pv.aspx 0B

Board.htm 747B

Topic.js 2KB

feedback.gif 542B

codesearch_120_60.gif 10KB

show_ads.js 7KB

中文转utf-8.html 1KB

JavaJSP中文乱码问题解决心得.htm 16KB

============================================================= WEB开发中的JAVA字符编码经验总结足不出户,傲游全球! 作者:网管整理来源:bitsCN.com 点击:155 日期:2006-06-10 一、概要　　在JAVA应用程序特别是基于WEB的程序中，经常遇到字符的编码问题。为了防止出现乱码，首先需要了解JAVA是如何处理字符的，这样就可以有目的地在输入/输出环节中增加必要的转码。其次，由于各种服务器有不同的处理方式，还需要多做试验，确保使用中不出现乱码。二、基本概念 2．1 JAVA中字符的表达　　JAVA中有char、byte、String这几个概念。char 指的是一个UNICODE字符，为16位的整数。byte 是字节，字符串在网络传输或存储前需要转换为byte数组。在从网络接收或从存储设备读取后需要将byte数组转换成String。String是字符串，可以看成是由char组成的数组。String 和 char 为内存形式，byte是网络传输或存储的序列化形式。举例：英 String ying = “英”; char ying = ying.charAt(0); String yingHex = Integer.toHexString(ying); 82 F1 byte yingGBBytes = ying.getBytes(“GBK”); GB编码的字节数值 D3 A2 2．2 编码方式的简介　　String序列化成byte数组或反序列化时需要选择正确的编码方式。如果编码方式不正确，就会得到一些0x3F的值。常用的字符编码方式有ISO8859_1、GB2312、GBK、UTF-8/UTF-16/UTF-32。 ISO8859_1用来编码拉丁文，它由单字节（0－255）组成。　　GB2312、GBK用来编码简体中文，它有单字节和双字节混合组成。最高位为1的字节和下一个字节构成一个汉字，最高位为0的字节是ASCII码。　　UTF-8/UTF-16/UTF-32是国际标准UNICODE的编码方式。用得最多的是UTF-8，主要是因为它在对拉丁文编码时节约空间。 UNICODE值 UTF-8编码 U-00000000 - U-0000007F: 0xxxxxxx U-00000080 - U-000007FF: 110xxxxx 10xxxxxx U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 三、J2SE中相关的函数 String str =”英”; //取得GB2312编码的字节 byte[] bytesGB2312 = str.getBytes(“GB2312”); //取得平台缺省编码的字节(solaris为ISO8859_1,windows为GB2312) byte[] bytesDefault = str.getBytes(); //用指定的编码将字节转换成字符串 String newStrGB = new String(bytesGB2312, “GB2312”); //用平台缺省的编码将字节转换成字符串(solaris为ISO8859_1,windows为GB2312) String newStrDefault = new String(bytesDefault); //用指定的编码从字节流里面读取字符 InputStream in = xxx; InputStreamReader reader = InputStreamReader( in, “GB2312”); char aChar = reader.read(); 四、JSP、数据库的编码 4．1 JSP中的编码 (1) 静态声明: CHARSET有两个作用： JSP文件的编码方式：在读取JSP文件、生成JAVA类时，源JSP文件中汉字的编码 JSP输出流的编码方式：在执行JSP时，往response流里面写入数据的编码方式 (2) 动态改变:在往response流里面写数据前可以调用response.setContentType()，设定正确的编码类型。 (3) 在TOMCAT中，由Request.getParameter() 得到的参数，编码方式都是ISO8859_1。所以如果在浏览器输入框内输入一个汉字“英”，在服务器端就得到一个ISO8859_1编码的（0x00,0xD3,0x00,0xA2）。所以通常在接收参数时转码： String wrongStr = response.getParameter(“name”); String correctStr = new String(wrongStr.getBytes(“ISO8859_1”),”GB2312”); 在最新的SERVLET规范里面，也可以在获取参数之前执行如下代码： request.setCharacterEncoding(“GB2312”); 4．2 数据库的编码 (1) 数据库使用UTF-16 如果String中是UNICODE字符，写入读出时不需要转码 (2) 数据库使用ISO8859_1 如果String中是UNICODE字符，写入读出时需要转码写入：String newStr = new String(oldStr.getByte(“GB2312”), “ISO8859_1”); 读出：String newStr = new String(oldStr.getByte(“ISO8859_1”),”GB2312”); 五、源文件的编码 5．1 资源文件资源文件的编码方式和编辑平台相关。在WINDOWS平台下编写的资源文件，以GB2312方式编码。在编译时需要转码，以确保在各个平台上的正确性： native2ascii –encoding GB2312 source.properties 这样从资源文件中读出的就是正确的UNICODE字符串。 5．2 源文件源文件的编码方式和编辑平台相关。在WINDOWS平台下开发的源文件，以GB2312方式编码。在编译的时候，需要指定源文件的编码方式： javac –encoding GB2312 JAVA编译后生成的字节文件的编码为UTF-8。 ①最新版TOMCAT4.1.18支持request.setCharacterEncoding(String enc) ②资源文件转码成company.name=\u82f1\u65af\u514b ③如果数据库使用utf-16则不需要这部分转码 ④页面上应有转码ⅰ: String s = new String (request.getParameter(“name”).getBytes(“ISO8859_1”),”GB2312”); 转码ⅱ: String s = new String(name.getBytes(“GB2312”),”ISO8859_1”); 转码ⅲ: String s = new String(name.getBytes(“ISO8859_1”),” GB2312”); ============================================================================================= UTF-8 and Unicode FAQ by Markus Kuhn 中国LINUX论坛翻译小组 xLoneStar[译] 2000年2月这篇文章说明了在 POSIX 系统 (Linux,Unix) 上使用 Unicode/UTF-8 所需要的信息. 在将来不远的几年里, Unicode 已经很接近于取代 ASCII 与 Latin-1 编码的位置了. 它不仅允许你处理处理事实上存在于地球上的任何语言文字, 而且提供了一个全面的数学与技术符号集, 因此可以简化科学信息交换. UTF-8 编码提供了一种简便而向后兼容的方法, 使得那种完全围绕 ASCII 设计的操作系统, 比如 Unix, 也可以使用 Unicode. UTF-8 就是 Unix, Linux 已经类似的系统使用 Unicode 的方式. 现在是你了解它的时候了. 什么是 UCS 和 ISO 10646? 国际标准 ISO 10646 定义了通用字符集 (Universal Character Set, UCS). UCS 是所有其他字符集标准的一个超集. 它保证与其他字符集是双向兼容的. 就是说, 如果你将任何文本字符串翻译到 UCS格式, 然后再翻译回原编码, 你不会丢失任何信息. UCS 包含了用于表达所有已知语言的字符. 不仅包括拉丁语,希腊语, 斯拉夫语,希伯来语,阿拉伯语,亚美尼亚语和乔治亚语的描述, 还包括中文, 日文和韩文这样的象形文字, 以及平假名, 片假名, 孟加拉语, 旁遮普语果鲁穆奇字符(Gurmukhi), 泰米尔语, 印.埃纳德语(Kannada), Malayalam, 泰国语, 老挝语, 汉语拼音(Bopomofo), Hangul, Devangari, Gujarati, Oriya, Telugu 以及其他数也数不清的语. 对于还没有加入的语言, 由于正在研究怎样在计算机中最好地编码它们, 因而最终它们都将被加入. 这些语言包括 Tibetian, 高棉语, Runic(古代北欧文字), 埃塞俄比亚语, 其他象形文字, 以及各种各样的印-欧语系的语言, 还包括挑选出来的艺术语言比如 Tengwar, Cirth 和克林贡语(Klingon). UCS 还包括大量的图形的, 印刷用的, 数学用的和科学用的符号, 包括所有由 TeX, Postscript, MS-DOS，MS-Windows, Macintosh, OCR 字体, 以及许多其他字处理和出版系统提供的字符. ISO 10646 定义了一个 31 位的字符集. 然而, 在这巨大的编码空间中, 迄今为止只分配了前 65534 个码位 (0x0000 到 0xFFFD). 这个 UCS 的 16位子集称为基本多语言面 (Basic Multilingual Plane, BMP). 将被编码在 16 位 BMP 以外的字符都属于非常特殊的字符(比如象形文字), 且只有专家在历史和科学领域里才会用到它们. 按当前的计划, 将来也许再也不会有字符被分配到从 0x000000 到 0x10FFFF 这个覆盖了超过 100 万个潜在的未来字符的 21 位的编码空间以外去了. ISO 10646-1 标准第一次发表于 1993 年, 定义了字符集与 BMP 中内容的架构. 定义 BMP 以外的字符编码的第二部分 ISO 10646-2 正在准备中, 但也许要过好几年才能完成. 新的字符仍源源不断地加入到 BMP 中, 但已经存在的字符是稳定的且不会再改变了. UCS 不仅给每个字符分配一个代码, 而且赋予了一个正式的名字. 表示一个 UCS 或 Unicode 值的十六进制数, 通常在前面加上 "U+", 就象 U+0041 代表字符"拉丁大写字母A". UCS 字符 U+0000 到 U+007F 与 US-ASCII(ISO 646) 是一致的, U+0000 到 U+00FF 与 ISO 8859-1(Latin-1) 也是一致的. 从 U+E000 到 U+F8FF, 已经 BMP 以外的大范围的编码是为私用保留的. 什么是组合字符? UCS里有些编码点分配给了组合字符.它们类似于打字机上的无间隔重音键. 单个的组合字符不是一个完整的字符. 它是一个类似于重音符或其他指示标记, 加在前一个字符后面. 因而, 重音符可以加在任何字符后面. 那些最重要的被加重的字符, 就象普通语言的正字法(orthographies of common languages)里用到的那种, 在 UCS 里都有自己的位置, 以确保同老的字符集的向后兼容性. 既有自己的编码位置, 又可以表示为一个普通字符跟随一个组合字符的被加重字符, 被称为预作字符(precomposed characters). UCS 里的预作字符是为了同没有预作字符的旧编码, 比如 ISO 8859, 保持向后兼容性而设的. 组合字符机制允许在任何字符后加上重音符或其他指示标记, 这在科学符号中特别有用, 比如数学方程式和国际音标字母, 可能会需要在一个基本字符后组合上一个或多个指示标记. 组合字符跟随着被修饰的字符. 比如, 德语中的元音变音字符 ("拉丁大写字母A 加上分音符"), 既可以表示为 UCS 码 U+00C4 的预作字符, 也可以表示成一个普通 "拉丁大写字母A" 跟�