最近想學習一些python數據分析的內容,就弄了個爬蟲爬取了一些數據,并打算用Anaconda一套的工具(pandas, numpy, scipy, matplotlib, jupyter)等進行一些初步的數據挖掘和分析。
在使用matplotlib畫圖時,橫坐標為中文,但是畫出的條形圖橫坐標總是顯示“框框”,就去查資料解決。感覺這應該是個比較常見的問題,網上的中文資料也確實很多,但是沒有任何一個徹底解決了我遇到的問題。零零碎碎用了快3個小時的時間,才終于搞定。特此分享,希望能幫到有同樣問題的童鞋。
運行環境:
python2.7 Linux Centos7 用conda安裝的matplotlib和pandas問題:
matplotlib畫圖,無法顯示中文問題原因:
linux操作系統以及matplotlib的字體庫中,沒有可用的中文字體 matplotlib包默認只支持ASCII碼,不支持unicode碼網上資料總結:
修改matplotlib的資源配置文件,例如增加"Simhei"字體(這個字體并不是所有的linux系統都有的好嘛!修改了并沒有作用) 給linux安裝中文字體,并修改matplotlib的資源配置文件。(呵呵,并沒有作用)解決方案:
其實也是綜合了網上的各種解決方案。總體說來有以下幾個步驟:
1. 獲取matplotlibrc文件所在路徑。在jupyter notebook中獲取:
import matplotlibmatplotlib.matplotlib_fname()
例如,我的這個文件在:
u'~/miniconda2/lib/python2.7/site-packages/matplotlib/mpl-data/matplotlibrc'
后續步驟會修改此文件中的font參數。
2. 看看系統中的所有字體,以及可用的中文字體。也是在jupyter nb中:
from matplotlib.font_manager import FontManagerimport subprocessfm = FontManager()mat_fonts = set(f.name for f in fm.ttflist)print mat_fontsoutput = subprocess.check_output(  'fc-list :lang=zh -f "%{family}/n"', shell=True)print '*' * 10, '系統可用的中文字體', '*' * 10print outputzh_fonts = set(f.split(',', 1)[0] for f in output.split('/n'))available = mat_fonts & zh_fontsprint '*' * 10, '可用的字體', '*' * 10for f in available:  print f做完上述操作,會發現“可用的字體”這里為空。因為沒有中文字體給matplotlib用(所以才會中文都顯示“框框”)
3. 假設操作系統中沒有中文字體。此時下載一個ttf中文字體,并在cenos中安裝。要安裝那種系統能檢測font-family的,否則無效。我在這個網站下載的:http://font.chinaz.com/130130474870.htm
解壓rar文件。在 /usr/share/fonts 路徑下創建存放此字體的文件夾yourfontdir,并下載的ttf文件復制到yourfontdir中(可以給文件改個英文名,方便操作)
4. 給cenos安裝這個字體。
cd /usr/share/fonts/yourfontsdir#生成字體索引信息. 會顯示字體的font-familysudo mkfontscalesudo mkfontdir#更新字體緩存:fc-cache
新聞熱點
疑難解答