前段時間,在所參與的項目中遇到了一個unicode與gb之間轉碼失敗的問題,一些不常用漢字的編碼都被轉成了“??”,這些漢字沒有顯示出來,于是自己對相關的問題做了一些研究并最終使問題得以解決。現在就結合前面兩篇的unicode與gb方面的基本原理,介紹這種制作gbk-unicode編碼對照表的方法。
java的字符串string類功能強大,不但能進行一些基本的字符串操作,還可以根據需要構造指定字符集的字符串,本文所介紹的方法正是利了這一點,這種方法的基本思路是:
1、遍歷gbk編碼表中的所有漢字,使用該字的gb編碼構造一個字符串。gbk編碼表中各部分的漢字分塊比較整齊,很容易遍歷。
2、使用getbytes()方法取得該字符的字節數組,由于java是用unicode來表示字符的,所以此漢字的unicode就在其中。
以下是一段示例代碼:
這一段是對gbk/2區的漢字進行遍歷并處理的代碼,gbk/2區的首字節范圍在[0xb0,0xf7],尾字節范圍在[0xa1,0xfe],在構造字符串時使用的字符集為gbk:
string str = new string(gbkbytes,"gbk");
在使用getbytes()取得的字節數組中會有四個元素,前兩個不知是做什么用的,可能與字符串本身的結構有關,接下來的兩個字節才是真正的unicode碼。但這兩個字節是倒序的,要從最后一個字節開始取,之所以這樣是與big_endian和little_endian有關的,這里不多說。
當每一次內層循環結束時,buffer字符串中前兩個數字就是一個gb碼,后面兩個數字就是一個unicode碼,把它寫到文件中就行了。
這樣的文件得到之后,再在另外的程序中載入文件,把unicode值裝入數組,以gb碼為索引,就可以很方便地由gb碼查得unicode碼。
新聞熱點
疑難解答