国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 語言 > PHP > 正文

php 檢測字符編碼代碼

2024-09-04 11:47:47
字體:
來源:轉載
供稿:網友
  1. function utf8_gb2312($str$default = 'gb2312'
  2.     $str = preg_replace("/[x01-x7f]+/"""$str); 
  3.     if (emptyempty($str)) return $default
  4.      
  5.     $preg =  array
  6.         "gb2312" => "/^([xa1-xf7][xa0-xfe])+$/"//正則判斷是否是gb2312 
  7.         "utf-8" => "/^[x{4e00}-x{9fa5}]+$/u",      //正則判斷是否是漢字(utf8編碼的條件了),這個范圍實際上已經包含了繁體中文字了 
  8.     ); 
  9.     if ($default == 'gb2312') { 
  10.         $option = 'utf-8'
  11.     } else { 
  12.         $option = 'gb2312'
  13.     } 
  14.     if (!preg_match($preg[$default], $str)) { 
  15.         return $option
  16.     } 
  17.     $str = @iconv($default$option$str); 
  18.      
  19.     //不能轉成 $option, 說明原來的不是 $default 
  20.     if (emptyempty($str)) { 
  21.         return $option
  22.     } 

默認編碼是gb2312,而且我統計了一下,90%的情況下都是gb2312,所以,我的檢測函數不能出現本來是gb2312的,結果被檢測出utf8. 基本思路是:

1. 把所有的ascii去掉,如果全部都是ascii,那么就是gb2312。

2. 假設這個字符串是gb2312,用一個正則檢查它是否是真的gb2312,如果不是,那么就是utf-8

3. 然后,用iconv 把字符串轉換成utf8,如果轉換不成功,那么原來可能不是真正的一個gb2312編碼的字符(用正則匹配我已經盡量精確,但是,gb2312的編碼不是連續的,還是會有空洞),那么最后的編碼就是utf-8.

4. 否則就是gb2312 編碼:加入這樣的檢查功能后,在1000個關鍵字里面,就出現了1個亂碼,比以前的近100個關鍵字亂碼少了很多。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 色达县| 卓资县| 库伦旗| 玉门市| 重庆市| 广灵县| 平遥县| 全南县| 虹口区| 南澳县| 永康市| 盐城市| 来宾市| 龙江县| 大厂| 洛浦县| 偃师市| 德昌县| 松江区| 昌图县| 孙吴县| 郁南县| 兴文县| 合肥市| 墨江| 子长县| 甘德县| 惠东县| 湘乡市| 平安县| 江北区| 淮滨县| 吴江市| 汽车| 会宁县| 南平市| 兴海县| 新巴尔虎左旗| 紫阳县| 嵊泗县| 博湖县|