国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

基礎知識Notes: 字符串編碼(ASCII, Unicode and UTF8)

2019-11-08 02:07:54
字體:
來源:轉載
供稿:網友

總結陳述:ASCII碼是用來表示英語字符的編碼。只用1個字節(8位)。所以總共有256種可能。雖然實際而言只規定了128種,但是其每個字符的表示依然需要1個字節。而且,最高位永遠為0.

UTF-8是Unicode碼的優化方案中采用得較為廣泛的方案。Unicode設計的動機:世界上存在著多種編碼方式,同一個二進制數字可以被解釋成不同的符號。因此,要想打開一個文本文件,就必須知道它的編碼方式,否則用錯誤的編碼方式解讀,就會出現亂碼。可以想象,如果有一種編碼,將世界上所有的符號都納入其中。每一個符號都給予一個獨一無二的編碼,那么亂碼問題就會消失。這就是Unicode,就像它的名字都表示的,這是一種所有符號的編碼。

Unicode的好處是顯而易見的,但是壞處便是需要很多位去表示一個字符(總共有million級別的可能),然而很多時候,是不需要那么多位的。它的提出代表一種方案,它只規定了符號的二進制代碼,卻沒有規定這個二進制代碼應該如何存儲。UTF-8就是在互聯網上使用最廣的一種Unicode的實現方式。其他實現方式還包括UTF-16(字符用兩個字節或四個字節表示)和UTF-32(字符用四個字節表示),不過在互聯網上基本不用。重復一遍,這里的關系是,UTF-8是Unicode的實現方式之一。

UTF-8最大的一個特點,就是它是一種變長的編碼方式。它可以使用1~4個字節表示一個符號,根據不同的符號而變化字節長度。UTF-8的編碼規則很簡單,只有二條:1)對于單字節的符號,字節的第一位設為0,后面7位為這個符號的unicode碼。因此對于英語字母,UTF-8編碼和ASCII碼是相同的。2)對于n字節的符號(n>1),第一個字節的前n位都設為1,第n+1位設為0,后面字節的前兩位一律設為10。剩下的沒有提及的二進制位,全部為這個符號的unicode碼。

參考鏈接:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 临沭县| 溧水县| 玛沁县| 浮山县| 望江县| 临泉县| 渭源县| 周宁县| 康定县| 长治县| 方正县| 南乐县| 荔波县| 伊通| 旅游| 昂仁县| 阳西县| 舒城县| 平山县| 天峨县| 遵义县| 淮南市| 南江县| 刚察县| 上林县| 保亭| 称多县| 阿克苏市| 琼海市| 攀枝花市| 城步| 临泉县| 格尔木市| 思南县| 郯城县| 泾源县| 汝城县| 修文县| 宜君县| 四平市| 盖州市|