国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

python實現從pdf文件中提取文本,并自動翻譯的方法

2020-02-15 23:47:34
字體:
來源:轉載
供稿:網友

針對Python 3.5.2 測試

首先安裝兩個包:

$ pip install googletrans

$ pip install pdfminer3k

googletrans會提供一個命令translate,這個命令會調用google translate api執行自動翻譯:

python pdf文件中提取文本,并自動翻譯

python pdf文件中提取文本,并自動翻譯

python pdf文件中提取文本,并自動翻譯

pdfminer3k會提供一個工具腳本pdf2txt.py:

$ pdf2txt.py xxx.pdf

從stackoverflow搜索到可以去除頁眉和頁腳的命令(強烈推薦):

使用Ubuntu提供的pdftotext工具:

$ pdftotext -y 50 -H 650 -W 1000 -nopgbrk sva.pdf$ pdftotext -f 147 -l 166 -y 50 -H 650 -W 1000 -nopgbrk sva.pdf

谷歌翻譯并不能識別段落或者整句,如果一個整句中出現換行符,會發現翻譯就不完整了,以網頁版谷歌翻譯測試:

python pdf文件中提取文本,并自動翻譯

因此需要將pdf轉換好的文本文件進行拼接,借用linux args 命令,實現此功能,將整個文件的換行符全部去掉。

但是問題又出現了,整個文件變成一行,我們的段落結構都消失了,那么我們需要手動添加delimiter,設置為一個特殊字符@。

python pdf文件中提取文本,并自動翻譯

執行如下命令:

cat trans_src.txt |xargs |xargs -0 -d '@' -i{} translate -d zh-cn {} |tee trans_dst.txtcat sva_src_1to2.txt |xargs |xargs -0 -d '&' -i{} translate -d zh-cn {} |xargs -d'/n' -n4 | awk -F'zh-cn' '{print $2}' | awk -F'[][]' '{print $2}' | tee sva_dst_1to2.txt

將翻譯后的文本重定向到一個文件,然后對文件進行簡單的后處理,就可以了。

python pdf文件中提取文本,并自動翻譯

以上這篇python實現從pdf文件中提取文本,并自動翻譯的方法就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持武林站長站。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 锦州市| 石屏县| 静海县| 贺州市| 洛南县| 连云港市| 饶阳县| 汝阳县| 衡水市| 浦北县| 前郭尔| 清徐县| 文水县| 岢岚县| 呼图壁县| 迁西县| 祁阳县| 饶阳县| 嘉义市| 石林| 县级市| 盐津县| 孙吴县| 灌云县| 梁平县| 宜川县| 巴彦淖尔市| 柯坪县| 临城县| 尖扎县| 宁陕县| 巩义市| 马龙县| 瑞丽市| 宜州市| 平罗县| 洮南市| 常宁市| 浪卡子县| 德江县| 怀仁县|