對Python生成漢字字庫文字,以及轉(zhuǎn)換為文字圖片的實(shí)例詳解

2020-02-16 00:57:33

字體：大中小

供稿：網(wǎng)友

筆者小白在收集印刷體漢字的深度學(xué)習(xí)訓(xùn)練集的時(shí)候，一開始就遇到的了一個(gè)十分棘手的問題，就是如何獲取神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集數(shù)據(jù)。通過上網(wǎng)搜素，筆者沒有找到可用的現(xiàn)成的可下載的漢字的訓(xùn)練集，于是筆者采用了代碼自建漢字的訓(xùn)練集數(shù)據(jù)。

這里采用的是python編寫程序，需要import 的python庫請?zhí)崆鞍惭b。

那么，首先如何用python輸出漢字字庫的文字？

筆者查到在計(jì)算機(jī)中漢字編碼范圍是0x4E00到0x9FA5，利用unichr（）可以將十六進(jìn)制的編碼轉(zhuǎn)成人類可讀的字。

這里擴(kuò)展一下在python庫中什么是unichr（），以及什么是chr（）和ord（）。

chr( )函數(shù)用一個(gè)范圍在range（256）內(nèi)的（就是0～255）整數(shù)作參數(shù)，返回一個(gè)對應(yīng)的字符。

unichr( )跟它一樣，只不過返回的是Unicode字符，這個(gè)從Python 2.0才加入的unichr( )的參數(shù)范圍依賴于你的Python是如何被編譯的。

如果是配置為USC2的Unicode，那么它的允許范圍就是range（65536）或0x0000-0xFFFF；如果配置為UCS4，那么這個(gè)值應(yīng)該是range（1114112）或0x000000-0x110000。

如果提供的參數(shù)不在允許的范圍內(nèi)，則會報(bào)一個(gè)ValueError的異常。

ord( )函數(shù)是chr( )函數(shù)（對于8位的ASCII字符串）或unichr( )函數(shù)（對于Unicode對象）的配對函數(shù)，它以一個(gè)字符（長度為1的字符串）作為參數(shù)，返回對應(yīng)的ASCII數(shù)值，或者Unicode數(shù)值，如果所給的Unicode字符超出了你的Python定義范圍，則會引發(fā)一個(gè)TypeError的異常。

接下來就是把unicode編碼的字寫入文件呢，如果直接用open()的話，會提示UnicodeEncodeError: ‘a(chǎn)scii' codec can't encode character u'/u4e00' in position 0: ordinal not in range(128)

這里就是涉及到python讀寫文件時(shí)候的兩種方式了，一種是open（），還一種是codecs.open( )。

對于open（）這個(gè)python的內(nèi)置函數(shù)來說，打開文件的方式一般為：

f=open(file_name,access_mode = 'r',buffering = -1)。

file_name就是文件的路徑加文件名字，不加路徑則文件會存放在python程序的路徑下，

access_mode就是操作文件的模式，主要有r,w,rb，wb等，細(xì)節(jié)網(wǎng)上一大堆,buffering = -1是用于指示訪問文件所采用的緩存方式。0表示不緩存；1表示只緩存一行，n代表緩存n行。如果不提供或?yàn)樨?fù)數(shù)，則代表使用系統(tǒng)默認(rèn)的緩存機(jī)制。

>>> fr = open('test1.txt','wb')>>> line1 = "我是誰">>> fr.write(line1)

打開以后就是寫和讀的操作。但是用open方法打開會有一些問題。open打開文件只能寫入str類型,不管字符串是什么編碼方式。所以對于寫入文件的數(shù)據(jù)的編碼不統(tǒng)一的時(shí)候，需要用到codecs.open（）。

這種方法可以指定一個(gè)編碼打開文件，使用這個(gè)方法打開的文件讀取返回的將是unicode。

上一篇：Python刪除n行后的其他行方法

下一篇：對python3中, print橫向輸出的方法詳解

學(xué)習(xí)交流

如何重啟打印機(jī)打印服務(wù)

如何重啟打印機(jī)打印服務(wù)...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關(guān)注

新聞熱點(diǎn)

明兮語文停止運(yùn)營發(fā)展資金鏈斷裂

2020-02-16 09:52:44

2006年李俊編寫了“熊貓燒香”電腦病毒，現(xiàn)在過得怎么樣？

2020-02-15 15:53:44

谷歌合并Alphabet旗下子公司Jigsaw，未來會如何發(fā)展？

2020-02-11 22:02:38

NASA說今天地球引力最小能讓掃帚立起來？原因很簡單

2020-02-11 21:45:12

TCL集團(tuán)宣布今日起正式更名為“TCL科技”

2020-02-07 10:36:18

黑莓曲終落，情懷價(jià)幾何？

2020-02-06 12:16:44

疑難解答

圖片精選

網(wǎng)友關(guān)注

国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

對Python生成漢字字庫文字,以及轉(zhuǎn)換為文字圖片的實(shí)例詳解