国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

記錄使用python時遇到的中文 編碼問題與解決方法

2019-11-06 07:54:56
字體:
供稿:網(wǎng)友

記錄使用python時遇到的中文 編碼問題與解決方法

剛接觸python時,師兄就教導(dǎo)我們在每個py文件的第一行要加上# coding=utf-8這句話啦

在一開始的處理時并沒有遇到問題,可隨著處理的東西越來越多,各種各樣的問題就出現(xiàn)了,為了盡量避免這些問題首先是把Pycharm的編碼統(tǒng)一了,如圖

如果是處理獲取到的網(wǎng)頁源代碼,不要偷懶,先看看源代碼的編碼,就像下圖中的charset=一般來說就是它的編碼了 如果網(wǎng)頁源代碼的編碼和自己編譯器的不同,會出現(xiàn)中文亂碼,那么該怎么解決呢?假設(shè)網(wǎng)頁源代碼是GB2312而想要的是utf-8,則可以用這句代碼 s.decode('GB2312').encode('utf-8') 因為字符串在Python內(nèi)部的表示是unicode編碼. 因此,在做編碼轉(zhuǎn)換時,通常需要以unicode作為中間編碼,即先將其他編碼的字符串解碼(decode)成unicode,再從unicode編碼(encode)成另一種編碼。

可是!就是有些網(wǎng)頁啊~口不對心,charset顯示的編碼和實際編碼跟不一樣,怪不得有UnicodeEncodeError[捂臉] 這時候就可以用下面的代碼來查看字符串的真實編碼,然后再decode和encode就好啦

import chardetPRint chardet.detect(data) # data是未知編碼的字符串
發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 额济纳旗| 平湖市| 肇庆市| 松阳县| 天气| 乌鲁木齐县| 长治县| 土默特左旗| 宁陕县| 慈利县| 康平县| 镇雄县| 扶余县| 土默特左旗| 沅陵县| 永平县| 台北县| 东兴市| 通化市| 乌拉特中旗| 华蓥市| 郸城县| 霍山县| 普陀区| 城固县| 志丹县| 辽阳市| 丰宁| 沂南县| 苗栗市| 渝北区| 舒兰市| 当阳市| 杭州市| 平武县| 五指山市| 黔西| 宣威市| 海伦市| 浠水县| 和硕县|