国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

Python中動態檢測編碼chardet的使用教程

2020-02-16 01:47:19
字體:
來源:轉載
供稿:網友

前言

在互聯網的世界里,每個頁面都使用了編碼,但是形形色色的編碼讓我們的代碼何以得知其棉麻格式呢?charset將很好的解決這個問題。

1. chardet

chardet是Python社區提供了一個類庫包,方便我們在代碼中動態檢測當前頁面或者文件中的編碼格式信息。接口非常的簡單和易用。

Project主頁: https://github.com/chardet/chardet

本地下載地址:http://xiazai.jb51.net/201707/yuanma/chardet(jb51.net).rar

文檔主頁: http://chardet.readthedocs.io/en/latest/usage.html

2. 使用示例

Notice: 筆者使用的python 3.5 +

Case 1: 檢測特定頁面的編碼格式

import chardetimport urllib.requestTestData = urllib.request.urlopen('http://www.baidu.com/').read()print(chardet.detect(TestData))

輸出結果:

{'confidence': 0.99, 'encoding': 'utf-8'}

結果分析, 其準確率99%的概率,編碼格式為utf-8

使用說明:detect()為其關鍵方法

Case 2: 增量檢測編碼格式

import urllib.requestfrom chardet.universaldetector import UniversalDetectorusock = urllib.request.urlopen('http://yahoo.co.jp/')detector = UniversalDetector()for line in usock.readlines():detector.feed(line)if detector.done: breakdetector.close()usock.close()print(detector.result)

輸出結果:

{'confidence': 0.99, 'encoding': 'utf-8'}

說明: 為了提高預測的準確性,基于dector.feed()來實現持續的信息輸入,在信息足夠充足之后結束信息輸入,給出相應的預測和判斷。

如果需要復用detector方法,需要進行detector.reset()進行重置,從而可以復用。

Case 3: 在安裝chardet之后,可以基于命令行來檢測文件編碼

% chardetect somefile someotherfilesomefile: windows-1252 with confidence 0.5someotherfile: ascii with confidence 1.0

在系統層面,可以直接基于命令行來進行文件編碼檢測,非常簡單易用。

3. 總結

chardet是非常易用和功能強大的Python包,相信大家在web世界中遨游之時,肯定會用上這個chardet的。 如有問題,歡迎大家反饋給我。

好了,以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對武林站長站的支持。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 本溪| 司法| 桐庐县| 焉耆| 金堂县| 定州市| 当阳市| 屏边| 阳信县| 石狮市| 土默特右旗| 沂源县| 理塘县| 宽城| 宣城市| 宜州市| 泸西县| 咸阳市| 保定市| 高州市| 池州市| 略阳县| 长岭县| 桦川县| 丰原市| 琼结县| 藁城市| 修文县| 和林格尔县| 方城县| 台北市| 晋中市| 西青区| 筠连县| 望江县| 古交市| 田林县| 梁河县| 福海县| 达拉特旗| 简阳市|