PHP中文編碼解決方案

2024-05-04 23:05:19

字體：大中小

供稿：網(wǎng)友

php程序設(shè)計中中文編碼問題曾經(jīng)困擾很多人，導致這個問題的原因其實很簡單，每個國家(或區(qū)域)都規(guī)定了計算機信息交換用的字符編碼集，如美國的擴展 ascii 碼, 中國的 gb2312-80，日本的 jis 等。作為該國家/區(qū)域內(nèi)信息處理的基礎(chǔ)，字符編碼集起著統(tǒng)一編碼的重要作用。字符編碼集按長度分為 sbcs(單字節(jié)字符集)，dbcs(雙字節(jié)字符集)兩大類。早期的軟件(尤其是操作系統(tǒng))，為了解決本地字符信息的計算機處理，出現(xiàn)了各種本地化版本(l10n)，為了區(qū)分，引進了 lang, codepage 等概念。但是由于各個本地字符集代碼范圍重疊，相互間信息交換困難; 軟件各個本地化版本獨立維護成本較高。因此有必要將本地化工作中的共性抽取出來，作一致處理，將特別的本地化處理內(nèi)容降低到最少。這也就是所謂的國際化(118n)。各種語言信息被進一步規(guī)范為 locale 信息。處理的底層字符集變成了幾乎包含了所有字形的 unicode。

　　現(xiàn)在大部分具有國際化特征的軟件核心字符處理都是以 unicode 為基礎(chǔ)的，在軟件運行時根據(jù)當時的ocale/lang/codepage 設(shè)置確定相應的本地字符編碼設(shè)置，并依此處理本地字符。在處理過程中需要實現(xiàn) unicode 和本地字符集的相互轉(zhuǎn)換，甚或以 unicode 為中間的兩個不同本地字符集的相互轉(zhuǎn)換。這種方式在網(wǎng)絡(luò)環(huán)境下被進一步延伸，任何網(wǎng)絡(luò)兩端的字符信息也需要根據(jù)字符集的設(shè)置轉(zhuǎn)換成可接受的內(nèi)容。

　　數(shù)據(jù)庫中的字符集編碼問題

　　流行的關(guān)系數(shù)據(jù)庫系統(tǒng)都支持數(shù)據(jù)庫字符集編碼，也就是說在創(chuàng)建數(shù)據(jù)庫時可以指定它自己的字符集設(shè)置，數(shù)據(jù)庫的數(shù)據(jù)以指定的編碼形式存儲。當應用程序訪問數(shù)據(jù)時，在入口和出口處都會有字符集編碼的轉(zhuǎn)換。對于中文數(shù)據(jù)，數(shù)據(jù)庫字符編碼的設(shè)置應當保證數(shù)據(jù)的完整性。gb2312、gbk、utf-8 等都是可選的數(shù)據(jù)庫字符集編碼; 當然我們也可以選擇 iso8859-1 (8-bit)，只是我們得在應

　　用程序?qū)憯?shù)據(jù)之前先將 16bit 的一個漢字或 unicode 拆分成兩個 8-bit 的字符，讀數(shù)據(jù)之后也需要將兩個字節(jié)合并起來，同時還要判別其中的 sbcs 字符，因此我們并不推薦采用 iso8859-1 作為數(shù)據(jù)庫字符集編碼。這樣不但沒有充分利用數(shù)據(jù)庫自身的字符集編碼支持，而且同時也增加了編程的復雜度。編程時，可以先用數(shù)據(jù)庫管理系統(tǒng)提供的管理功能檢查其中的中文數(shù)據(jù)是否正確。

　　php 程序在查詢數(shù)據(jù)庫之前，首先執(zhí)行 mysql_query("set names xxxx"); 其中 xxxx 是你網(wǎng)頁的編碼(charset=xxxx)，如果網(wǎng)頁中 charset=utf8，則 xxxx=utf8，如果網(wǎng)頁中 charset=gb2312，則xxxx=gb2312，幾乎所有 web 程序，都有一段連接數(shù)據(jù)庫的公共代碼，放在一個文件里，在這文件里，加入 mysql_query("set names xxxx") 就可以了。

　　set names 顯示客戶端發(fā)送的 sql 語句中使用什么字符集。因此，set names 'utf-8' 語句告訴服務器“將來從這個客戶端傳來的信息采用字符集 utf-8”。它還為服務器發(fā)送回客戶端的結(jié)果指定了字符集(例如，如果你使用一個 select 語句，它表示列值使用了什么字符集)。

　　定位問題時常用的技巧

　　定位中文編碼問題通常采用最笨的也是最有效的辦法―在你認為有嫌疑的程序處理后打印字符串的內(nèi)碼。通過打印字符串的內(nèi)碼，你可以發(fā)現(xiàn)什么時候中文字符被轉(zhuǎn)換成 unicode，什么時候unicode 被轉(zhuǎn)回中文內(nèi)碼，什么時候一個中文字成了兩個 unicode 字符，什么時候中文字符串被轉(zhuǎn)成了一串問號，什么時候中文字符串的高位被截掉了……

　　取用合適的樣本字符串也有助于區(qū)分問題的類型。如："aa啊 [email protected]" 等中英相間，gb、gbk特征字符均有的字符串。一般來說，英文字符無論怎么轉(zhuǎn)換或處理，都不會失真(如果遇到了，可以嘗試著增加連續(xù)的英文字母長度)。

　　解決各種應用的亂碼問題

　　1) 使用標簽設(shè)置頁面編碼

　　這個標簽的作用是聲明客戶端的瀏覽器用什么字符集編碼顯示該頁面，xxx 可以為 gb2312、gbk、utf-8(和 mysql 不同，mysql 是 utf8)等等。因此，大部分頁面可以采用這種方式來告訴瀏覽器顯示這個頁面的時候采用什么編碼，這樣才不會造成編碼錯誤而產(chǎn)生亂碼。但是有的時候我們會發(fā)現(xiàn)有了這句還是不行，不管 xxx 是哪一種，瀏覽器采用的始終都是一種編碼，這個情況我后面會談到。

　　請注意，是屬于 html 信息的，僅僅是一個聲明，僅表明服務器已經(jīng)把 html 信息傳到了瀏覽器。

　　2) header("content-type:text/html; charset=xxx");

　　這個函數(shù) header() 的作用是把括號里面的信息發(fā)到 http 標頭。如果括號里面的內(nèi)容為文中所說那樣，那作用和標簽基本相同，大家對照第一個看發(fā)現(xiàn)字符都差不多的。但是不同的是如果有這段函數(shù)，瀏覽器就會永遠采用你所要求的 xxx 編碼，絕對不會不聽話，因此這個函數(shù)是很有用的。為什么會這樣呢?那就得說說 http 標頭和 html信息的差別了：

　　http 標頭是服務器以 http 協(xié)議傳送 html 信息到瀏覽器前所送出的字串。而標簽是屬于 html 信息的，所以 header() 發(fā)送的內(nèi)容先到達瀏覽器，通俗點就是 header() 的優(yōu)先級高于 (不知道可不可以這樣講)。假如一個 php 頁面既有header("content-type:text/html; charset=xxx")，又有，瀏覽器就只認前者 http 標頭而不認 meta 了。當然這個函數(shù)只能在 php 頁面內(nèi)使用。

　　同樣也留有一個問題，為什么前者就絕對起作用，而后者有時候就不行呢?這就是接下來要談的apache 的原因了。

　　3) adddefaultcharset

　　apache 根目錄的 conf 文件夾里，有整個 apache 的配置文檔 httpd.conf。

　　用文本編輯器打開 httpd.conf，第 708 行(不同版本可能不同)有 adddefaultcharset xxx，xxx為編碼名稱。這行代碼的意思：設(shè)置整個服務器內(nèi)的網(wǎng)頁文件 http 標頭里的字符集為你默認的 xxx字符集。有這行，就相當于給每個文件都加了一行 header("content-type:text/html; charset=xxx")。這下就明白為什么明明設(shè)置了是 utf-8，可瀏覽器始終采用 gb2312 的原因。

　　如果網(wǎng)頁里有 header("content-type:text/html; charset=xxx")，就把默認的字符集改為你設(shè)置的字符集，所以這個函數(shù)永遠有用。如果把 adddefaultcharset xxx 前面加個"#"，注釋掉這句，而且頁面里不含 header("content-type…")，那這個時候就輪到 meta 標簽起作用了。

　　下面列出以上的優(yōu)先順序：

　　.. header("content-type:text/html; charset=xxx")

　　.. adddefaultcharset xxx

　　..

　　如果你是 web 程序員，建議給你的每個頁面都加個header("content-type:text/html; charset=xxx")，這樣就可以保證它在任何服務器都能正確顯示，可移植性也比較強。

　　4) php.ini 中的 default_charset 配置：

　　php.ini 中的 default_charset = "gb2312" 定義了 php 的默認語言字符集。一般推薦注釋掉此行，讓瀏覽器根據(jù)網(wǎng)頁頭中的 charset 來自動選擇語言而非做一個強制性的規(guī)定，這樣就可以在同臺服務器上提供多種語言的網(wǎng)頁服務。

　　結(jié)束語

　　其實 php 開發(fā)中的中文編碼并沒有想像的那么復雜，雖然定位和解決問題沒有定規(guī)，各種運行環(huán)境也各不盡然，但后面的原理是一樣的。了解字符集的知識是解決字符問題的基礎(chǔ)。不過，隨著中文字符集的變化，不僅僅是 php 編程，中文信息處理中的問題還是會存在一段時間的。

上一篇：通過PATH_INFO方法實現(xiàn)頁面?zhèn)戊o態(tài)

下一篇：php.ini中文操作教程