Java解决UTF-8的BOM问题_bomutf-8,带有bom的utf-8资源-CSDN文库

共3个文件

java：3个

4星 · 超过85%的资源需积分: 43 124 浏览量 2012-03-16 14:04:41 上传评论 2 收藏 3KB ZIP 举报

在Java编程中，UTF-8编码是一个非常常见且广泛使用的字符编码格式，它能支持全球大部分语言的字符表示。然而，UTF-8有一个特殊特性，那就是它可以带有Byte Order Mark（BOM），这是一个特殊的字节序列，用于标识数据的编码方式。在某些情况下，BOM可能会引起问题，例如在读取文本文件时，可能会导致额外的乱码字符出现在文件的开头。本文将深入探讨如何使用Java来处理带有BOM的UTF-8文件。 `UnicodeInputStream`和`UnicodeReader`是Java中用于处理Unicode编码流的类。它们是`java.io`包的一部分，提供了对带有BOM的文件进行读取的功能。`UnicodeInputStream`是一个过滤输入流，它的主要任务是检测并移除文件头中的BOM标志。`UnicodeReader`则是在`BufferedReader`基础上扩展的，用于处理不同类型的Unicode编码，包括那些带有BOM的编码。在`UnicodeInputStream`中，当读取文件时，它会检查前三个字节是否为UTF-8 BOM的标志（0xEF, 0xBB, 0xBF）。如果是，则将其从输入流中移除，这样后续的读取操作就不会受到BOM的影响。`UnicodeReader`则更进一步，它允许用户指定编码类型，并自动处理BOM。在`UTF8Test.java`这个示例文件中，可能包含了一个演示如何使用这两个类来处理BOM的问题。通常，它会创建一个`UnicodeInputStream`对象，然后用这个流来初始化一个`UnicodeReader`，最后通过`UnicodeReader`来读取和处理文件内容。这样的处理方式可以确保即使文件带有BOM，也能正确无误地读取文本。下面是一个简单的代码示例，展示了如何使用`UnicodeInputStream`和`UnicodeReader`来读取带有BOM的UTF-8文件： ```java import java.io.FileInputStream; import java.io.InputStreamReader; import java.io.BufferedReader; import java.io.UnicodeInputStream; public class UTF8Test { public static void main(String[] args) { try { FileInputStream fis = new FileInputStream("带有BOM的文件.txt"); UnicodeInputStream uis = new UnicodeInputStream(fis); BufferedReader reader = new BufferedReader(new InputStreamReader(uis, "UTF-8")); String line; while ((line = reader.readLine()) != null) { System.out.println(line); } reader.close(); uis.close(); fis.close(); } catch (Exception e) { e.printStackTrace(); } } } ``` 在这个例子中，我们首先创建一个`FileInputStream`来打开文件，然后将其传递给`UnicodeInputStream`，再由`UnicodeInputStream`创建一个`InputStreamReader`，指定编码为UTF-8。这样，即使文件带有BOM，`UnicodeInputStream`也会在读取之前自动移除，使得我们可以正常处理文件内容。处理UTF-8 BOM问题的关键在于正确使用能够识别并处理BOM的类，如Java的`UnicodeInputStream`和`UnicodeReader`。通过这些类，开发者可以在读取文件时避免BOM带来的困扰，确保文本数据的准确性和一致性。在编写和维护Java程序时，尤其是在处理多语言或跨平台的项目时，理解并正确处理BOM问题是非常重要的。

资源推荐

资源详情

资源评论

收起资源包目录

code.zip （3个子文件）

UTF8Test.java 710B

UnicodeReader.java 3KB

UnicodeInputStream.java 3KB

/** version: 1.1 / 2007-01-25 - changed BOM recognition ordering (longer boms first) Original pseudocode : Thomas Weidenfeller Implementation tweaked: Aki Nieminen http://www.unicode.org/unicode/faq/utf_bom.html BOMs in byte length ordering: 00 00 FE FF = UTF-32, big-endian FF FE 00 00 = UTF-32, little-endian EF BB BF = UTF-8, FE FF = UTF-16, big-endian FF FE = UTF-16, little-endian Win2k Notepad: Unicode format = UTF-16LE ***/ import java.io.*; /** * This inputstream will recognize unicode BOM marks and will skip bytes if * getEncoding() method is called before any of the read(...) methods. * * Usage pattern: String enc = "ISO-8859-1"; // or NULL to use systemdefault * FileInputStream fis = new FileInputStream(file); UnicodeInputStream uin = new * UnicodeInputStream(fis, enc); enc = uin.getEncoding(); // check and skip * possible BOM bytes InputStreamReader in; if (enc == null) in = new * InputStreamReader(uin); else in = new InputStreamReader(uin, enc); */ public class UnicodeInputStream extends InputStream { PushbackInputStream internalIn; boolean isInited = false; String defaultEnc; String encoding; private static final int BOM_SIZE = 4; UnicodeInputStream(InputStream in, String defaultEnc) { internalIn = new PushbackInputStream(in, BOM_SIZE); this.defaultEnc = defaultEnc; } public String getDefaultEncoding() { return defaultEnc; } public String getEncoding() { if (!isInited) { try { init(); } catch (IOException ex) { IllegalStateException ise = new IllegalStateException( "Init method failed."); ise.initCause(ise); throw ise; } } return encoding; } /** * Read-ahead four bytes and check for BOM marks. Extra bytes are unread * back to the stream, only BOM bytes are skipped. */ protected void init() throws IOException { if (isInited) return; byte bom[] = new byte[BOM_SIZE]; int n, unread; n = internalIn.read(bom, 0, bom.length); if ((bom[0] == (byte) 0x00) && (bom[1] == (byte) 0x00) && (bom[2] == (byte) 0xFE) && (bom[3] == (byte) 0xFF)) { encoding = "UTF-32BE"; unread = n - 4; } else if ((bom[0] == (byte) 0xFF) && (bom[1] == (byte) 0xFE) && (bom[2] == (byte) 0x00) && (bom[3] == (byte) 0x00)) { encoding = "UTF-32LE"; unread = n - 4; } else if ((bom[0] == (byte) 0xEF) && (bom[1] == (byte) 0xBB) && (bom[2] == (byte) 0xBF)) { encoding = "UTF-8"; unread = n - 3; } else if ((bom[0] == (byte) 0xFE) && (bom[1] == (byte) 0xFF)) { encoding = "UTF-16BE"; unread = n - 2; } else if ((bom[0] == (byte) 0xFF) && (bom[1] == (byte) 0xFE)) { encoding = "UTF-16LE"; unread = n - 2; } else { // Unicode BOM mark not found, unread all bytes encoding = defaultEnc; unread = n; } // System.out.println("read=" + n + ", unread=" + unread); if (unread > 0) internalIn.unread(bom, (n - unread), unread); isInited = true; } public void close() throws IOException { // init(); isInited = true; internalIn.close(); } public int read() throws IOException { // init(); isInited = true; return internalIn.read(); } }

评论收藏

内容反馈