转载自:http://www.cnblogs.com/zhenjing/p/java_code.html
1. 只有字符到字节或者字节到字符的转换才存在编码转码;
2. Java String 采用 UTF-16 编码方式存储所有字符。unicode体系采用唯一的码点表示唯一的字符信息,码点的存储方式有UFT-16、UTF-8 等等。: A String
represents a string in the UTF-16 format in which supplementary characters are represented bysurrogate pairs (see the section Unicode Character Representations in the Character
class for more information). Index values refer to char
code units, so a supplementary character uses two positions in a String
. The String
class provides methods for dealing with Unicode code points (i.e., characters), in addition to those for dealing with Unicode code units (i.e., char
values).
3. String只有一种格式,可认为String是独立于编码系统的,通过 getBytes(String charsetName) 可实现编码转换。
4. String对象是内存数据,string之间不存在编码变换问题。
5. 编码转换场景主要在 I/O , I/O 包括磁盘 I/O 和网络 I/O:文件输入输出、屏幕、数据库、浏览器、服务器。
6. 在内存中倒腾String数据是编码无关的,比如压缩编码。
7. 编码误区: new String(str.getBytes("ISO-8859-1"), "GB18030") 这种用法是无意义的,甚至是错误的。这种用法是用GB18030编码将ISO-8859-1编码格式的字节数据强制转换成unicode码点,不乱码是运气!
9. 数据库JDBC能够处理数据库数据 <=> String 的正确互换。
9. OutputStreamWriter 和 InputStreamWriter 应该指定编码格式,避免程序依赖操作系统默认编码。
10. 用户从浏览器端发起一个 HTTP 请求,需要存在编码的地方是 URL、Cookie、Parameter。服务器端接受到 HTTP 请求后要解析 HTTP 协议,其中 URI、Cookie 和 POST 表单参数需要解码,服务器端可能还需要读取数据库中的数据,本地或网络中其它地方的文本文件,这些数据都可能存在编码问题,当 Servlet 处理完所有请求的数据后,需要将这些数据再编码通过 Socket 发送到用户请求的浏览器里,再经过浏览器解码成为文本。
11. tomcat: URL 的 URI 部分进行解码的字符集是在 connector 的 <Connector URIEncoding=”UTF-8”/>
12. QueryString(GET 查询参数) 的解码字符集要么是 Header 中 ContentType 中定义的 Charset 要么就是默认的 ISO-8859-1,要使用 ContentType 中定义的编码就要设置 connector 的 <Connector URIEncoding=”UTF-8” useBodyEncodingForURI=”true”/> 中的 useBodyEncodingForURI 设置为 true。
13. 不要在 Header 中传递非 ASCII 字符,如果一定要传递的话,我们可以先将这些字符用 org.apache.catalina.util.URLEncoder 编码然后再添加到 Header 中,这样在浏览器到服务器的传递过程中就不会丢失信息了,如果我们要访问这些项时再按照相应的字符集解码就好了。
14. POST 表单的编解码: 通过 HTTP 的 BODY 传递到服务端的。当我们在页面上点击 submit 按钮时浏览器首先将根据 ContentType 的 Charset 编码格式对表单填的参数进行编码然后提交到服务器端,在服务器端同样也是用 ContentType 中字符集进行解码。所以通过 POST 表单提交的参数一般不会出现问题,而且这个字符集编码是我们自己设置的,可以通过 request.setCharacterEncoding(charset) 来设置。
15. HTTP BODY 的编解码: 当用户请求的资源已经成功获取后,这些内容将通过 Response 返回给客户端浏览器,这个过程先要经过编码再到浏览器进行解码。这个过程的编解码字符集可以通过 response.setCharacterEncoding 来设置,它将会覆盖 request.getCharacterEncoding 的值,并且通过 Header 的 Content-Type 返回客户端,浏览器接受到返回的 socket 流时将通过 Content-Type 的 charset 来解码,如果返回的 HTTP Header 中 Content-Type 没有设置 charset,那么浏览器将根据 Html 的 <meta HTTP-equiv="Content-Type" content="text/html; charset=GBK" /> 中的 charset 来解码。如果也没有定义的话,那么浏览器将使用默认的编码来解码。<%@ page contentType="text/html; charset= GBK" %>。该设置和response.setCharacterEncoding("GBK")等效。
示例代码
/** * @author zhenjing * * @date 2013-9-7 */ public class cnCodeTest { public static void toHex(char[] b) { for (int i = 0; i < b.length; i++) { System.out.printf("%x " , (int)b[i]); } System.out.println(); } public static void toHex(byte[] b) { for (int i = 0; i < b.length; i++) { System.out.printf("%x " , b[i]); } System.out.println(); } public static void encode() { String name = "I am 中文编码"; toHex(name.toCharArray()); try { byte[] iso8859 = name.getBytes("ISO-8859-1"); toHex(iso8859); byte[] gb2312 = name.getBytes("GB2312"); toHex(gb2312); byte[] gbk = name.getBytes("GBK"); toHex(gbk); byte[] utf16 = name.getBytes("UTF-16"); toHex(utf16); byte[] utf8 = name.getBytes("UTF-8"); toHex(utf8); } catch (Exception e) { e.printStackTrace(); } } public static void main(String[] args) { String cn = "中文编码"; // 这里存在编码转换: 将文件存储字节转成unicode存入String对象内存. 采用文件编码 char[] charArray = cn.toCharArray(); byte[] data = cn.getBytes(); System.out.println("print char array : " + cn); toHex(cn.toCharArray()); cn = "���ı���"; // 这里存在编码转换: 将文件存储字节转成unicode存入String对象内存. 采用文件编码。 // 显示乱码是由于文件采用的编码无法解码文件存储字节数据。故存到String的unicode也是乱码的 charArray = cn.toCharArray(); System.out.println("print char array: " + cn); toHex(cn.toCharArray()); encode(); } }
参考文章
相关推荐
java字符编码监听器
Java字符集和编码 ,Java字符集和编码Java字符集和编码
上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码,一直沿用至今。 ASCII码一共规定了128个字符的编码,比如空格“SPACE”是32(二进制00100000),...
java_字符编码.txt Javajava_字符编码问题
java字符串的各种编码转换. java字符串的各种编码转换
Java字符编码及获取文件编码
java 字符编码问题,遇到各种乱码问题可以参考此文档,十分全面
java字符编码问题
Java中的字符集编码入门(五)Java代码中的字符编码转换Part1.pdf
通用的文件字符编码集判断需要借助第三方包cpdetector.jar 使用Cpdetector jar包检测文件编码需要依赖antlr-2.7.7.jar、chardet-1.0.jar、jargs-1.0.jar三个jar包 本下载资源一站式全包含,并附带亲测有效的片段...
java字符串编码转换和web中的字符串转换
一个详细的讲解JAVA_字符编码的例子 希望可以帮助到你。
JAVA字符编码系列三[借鉴].pdf
java字符集编码乱码详解
字符编码检测和转换 附件中:FileEncodeDetector.java 此文件可以检测指定文件的编码格式 public static String getFileEncode(File file) {...} 附件中:FileCharsetConverter.java 此文件可以实现两个编码的相互...
java字符编码解析
NULL 博文链接:https://joard.iteye.com/blog/403031
本文介绍了字符与编码的发展过程,相关概念的正确理解。举例说明了一些实际应用中,编码的实现方法。然后,本文讲述了通常对字符与编码的几种误解,由于这些误解而导致乱码产生的原因,以及消除乱码的办法。本文的...
tomcat字符编码总结 深入了解!从网上搜集了很多,自己整理的
Java字符编码转换过程说明,用这个可以用jdk里的程序完成字符编码转换