国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

<noscript id="daqw1"></noscript>

<track id="daqw1"><tbody id="daqw1"><small id="daqw1"></small></tbody></track>

<td id="daqw1"><ins id="daqw1"></ins></td>

首頁 > 編程 > Python > 正文

python實現從pdf文件中提取文本,并自動翻譯的方法

2020-02-15 23:47:34

字體：大中小

來源：轉載

供稿：網友

針對Python 3.5.2 測試

首先安裝兩個包：

$ pip install googletrans

$ pip install pdfminer3k

googletrans會提供一個命令translate，這個命令會調用google translate api執行自動翻譯：

python pdf文件中提取文本,并自動翻譯

python pdf文件中提取文本,并自動翻譯

python pdf文件中提取文本,并自動翻譯

pdfminer3k會提供一個工具腳本pdf2txt.py：

$ pdf2txt.py xxx.pdf

從stackoverflow搜索到可以去除頁眉和頁腳的命令(強烈推薦)：

使用Ubuntu提供的pdftotext工具：

$ pdftotext -y 50 -H 650 -W 1000 -nopgbrk sva.pdf$ pdftotext -f 147 -l 166 -y 50 -H 650 -W 1000 -nopgbrk sva.pdf

谷歌翻譯并不能識別段落或者整句，如果一個整句中出現換行符，會發現翻譯就不完整了，以網頁版谷歌翻譯測試：

python pdf文件中提取文本,并自動翻譯

因此需要將pdf轉換好的文本文件進行拼接，借用linux args 命令，實現此功能，將整個文件的換行符全部去掉。

但是問題又出現了，整個文件變成一行，我們的段落結構都消失了，那么我們需要手動添加delimiter，設置為一個特殊字符@。

python pdf文件中提取文本,并自動翻譯

執行如下命令：

cat trans_src.txt |xargs |xargs -0 -d '@' -i{} translate -d zh-cn {} |tee trans_dst.txtcat sva_src_1to2.txt |xargs |xargs -0 -d '&' -i{} translate -d zh-cn {} |xargs -d'/n' -n4 | awk -F'zh-cn' '{print $2}' | awk -F'[][]' '{print $2}' | tee sva_dst_1to2.txt

將翻譯后的文本重定向到一個文件，然后對文件進行簡單的后處理，就可以了。

python pdf文件中提取文本,并自動翻譯

以上這篇python實現從pdf文件中提取文本,并自動翻譯的方法就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持武林站長站。

上一篇：程序員寫Python時的5個壞習慣，你有幾條？

下一篇：Python2和Python3中urllib庫中urlencode的使用注意事項

學習交流

如何重啟打印機打印服務

如何重啟打印機打印服務...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

明兮語文停止運營發展資金鏈斷裂

2020-02-16 09:52:44

2006年李俊編寫了“熊貓燒香”電腦病毒，現在過得怎么樣？

2020-02-15 15:53:44

谷歌合并Alphabet旗下子公司Jigsaw，未來會如何發展？

2020-02-11 22:02:38

NASA說今天地球引力最小能讓掃帚立起來？原因很簡單

2020-02-11 21:45:12

TCL集團宣布今日起正式更名為“TCL科技”

2020-02-07 10:36:18

黑莓曲終落，情懷價幾何？

2020-02-06 12:16:44

疑難解答

圖片精選

網友關注

主站蜘蛛池模板：锦州市| 石屏县| 静海县| 贺州市| 洛南县| 连云港市| 饶阳县| 汝阳县| 衡水市| 浦北县| 前郭尔| 清徐县| 文水县| 岢岚县| 呼图壁县| 迁西县| 祁阳县| 饶阳县| 嘉义市| 石林| 县级市| 盐津县| 孙吴县| 灌云县| 梁平县| 宜川县| 巴彦淖尔市| 柯坪县| 临城县| 尖扎县| 宁陕县| 巩义市| 马龙县| 瑞丽市| 宜州市| 平罗县| 洮南市| 常宁市| 浪卡子县| 德江县| 怀仁县|

<source id="puwfm"><optgroup id="puwfm"></optgroup></source>