国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發(fā) > PHP > 正文

PHP實現(xiàn)任意字符集下正常顯示網(wǎng)頁的方法

2024-05-04 23:05:24
字體:
供稿:網(wǎng)友

通常情況下,我們的網(wǎng)頁要指定一個編碼字符集,如 gb2312、utf-8、iso-8859-1 等,這樣我們就可以在網(wǎng)頁上顯示我們指定編碼的文字了。但是我們很可能會遇到這種情況,那就是我們可能希望在 iso-8859-1 編碼的網(wǎng)頁上顯示漢字,或者在 gb2312 編碼的網(wǎng)頁上顯示韓文等。當然一種解決辦法就是我們不用 iso-8859-1 或者 gb2312 編碼,而統(tǒng)統(tǒng)都采用 utf-8 編碼,這樣我們只要在這種編碼下,就可以混合顯示各國文字了,這是現(xiàn)在很多網(wǎng)站采用的方法。

而我這里所說的并非上面這種方法,因為上面這種方法必須要指定字符集為 utf-8 才可以,一旦用戶手工指定為其他字符集,或者可能因為某些原因,那個字符集設(shè)置沒起作用,而瀏覽器又沒有正確自動識別的話,我們看到的網(wǎng)頁還是亂碼,尤其是在某些用框架作的網(wǎng)頁中,某個框架中的頁面如果字符集設(shè)置沒起作用,在 firefox 中顯示亂碼而且還沒法改變(我是說在不裝rightencode插件的情況下)。

而我這里介紹的方法即使是把網(wǎng)頁指定為 iso-8859-1 字符集,也能夠正確顯示漢字、日文等。原理很簡單,就是把除了 iso-8859-1 編碼中前128個字符以外的所有其他的編碼都用 ncr(numeric character reference) 來表示。比如“漢字”這兩個字,如果我們寫成“汉字”這種形式,那么它在任意字符集下都可以正確顯示。根據(jù)這個原理,我寫了下面這個程序,它可以把現(xiàn)有的網(wǎng)頁轉(zhuǎn)化為在任意字符集下都能顯示的網(wǎng)頁。你只需要指定源網(wǎng)頁的字符集和源網(wǎng)頁,點提交按鈕,就可以得到目標網(wǎng)頁了。你也可以只轉(zhuǎn)化某些文字,只需要把文字填寫到文本框中,并指定這些文字原來的字符集,點提交按鈕,就會在頁面上面顯示編碼后的文字了。另外我還編寫了wordpress 的插件,現(xiàn)在我的 blog 已經(jīng)可以在任意字符集下都能正確顯示了。

實現(xiàn)方法:

首先第一步是要把源字符集的字符串轉(zhuǎn)化為utf-16字符集,做這一步是因為utf-16字符集中的每個字符都是兩個字節(jié),后面處理起來很容易,而如果在源字符集上直接做處理則很復雜。源字符集可以從原網(wǎng)頁中的meta標簽中獲得,也可以單獨指定,我的程序是讓用戶在表單中指定源字符集,因為我不能保證用戶提交的文件就一定是html文件(其他文件也是可以的,比如這個wordpress的漢化包源文件是個po文件,它里面的內(nèi)容也可以這樣處理),而且即使是html文件,里面也不一定就有用于指定字符集的meta標簽,所以通過表單單獨指定字符集比較保險。你可能會覺得將一種字符集轉(zhuǎn)化為另一種字符集很復雜,確實如此,如果自己來實現(xiàn)的話,確實非常麻煩,但是用php來做卻很容易,因為它里面已經(jīng)包含這樣的函數(shù)了,你可以通過iconv函數(shù)很容易的來實現(xiàn)各種字符集之間的轉(zhuǎn)化,如果你的機器上沒有安裝iconv擴展,你也可以使用mb_convert_encoding函數(shù),如果multibyte string擴展也沒有安裝,那就沒辦法了,因為你要自己實現(xiàn)那么多種編碼的轉(zhuǎn)化基本上是不可能的,除非你是頂級大牛!推薦使用iconv,因為這個效率高,支持的字符集也更多。

做完上面那一步之后,接下來是以每兩個字節(jié)為單位對字符串進行處理。這兩個字節(jié)直接轉(zhuǎn)化為數(shù)字就是&#xxxxx;中的xxxxx,如果這個數(shù)字小于128就直接使用這個字符(注意這里就變成單字節(jié)了),否則就使用&#xxxxx;的形式。這里有一點要注意,就是當這個數(shù)字是65279(16進制的0x feff)時,請把它忽略掉,因為這個是unicode編碼中的傳輸控制字符,而我們現(xiàn)在的字符串已經(jīng)只有iso-8859-1編碼中的前128個字符了,所以我們不需要它了。

好了,基本思路就是這樣,下面是實現(xiàn)的程序:

以下為引用的內(nèi)容:

<?php
function nochaoscode($encode, $str) {
$str = iconv($encode, "utf-16be", $str);
for ($i = 0; $i < strlen($str); $i++,$i++) {
$code = ord($str{$i}) * 256 + ord($str{$i + 1});
if ($code < 128) {
$output .= chr($code);
} else if ($code != 65279) {
$output .= "&#".$code.";";
}
}
return $output;
}
?>

函數(shù)的參數(shù)中,$encode是源字符集,$str是需要進行轉(zhuǎn)化的字符串。返回結(jié)果是轉(zhuǎn)化以后字符串。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 芒康县| 邢台市| 营口市| 陆川县| 修武县| 香港| 河津市| 六盘水市| 鄱阳县| 鄂尔多斯市| 三原县| 柞水县| 富源县| 新野县| 滕州市| 塔城市| 百色市| 永和县| 静宁县| 惠州市| 金华市| 罗平县| 贡嘎县| 鲜城| 土默特左旗| 汕尾市| 鹤庆县| 区。| 偃师市| 嘉禾县| 万盛区| 宜宾市| 广饶县| 仁怀市| 鹤壁市| 施秉县| 富宁县| 泽普县| 辽宁省| 滨海县| 江阴市|