国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

.net環境下從PDF文檔中抽取Text文本的一些方法匯總

2019-11-14 15:59:57
字體:
來源:轉載
供稿:網友

1.PDFBox的IKVM版本:據我所知,目前只有PDFBox的IKVM版本能比較好地從PDF中提取文本,PDFBOX更多信息請訪問http://www.pdbox.org,關于其應用實例,可以參考CodePRoject上的:http://www.codeproject.com/csharp/pdf2text.asp;
2.使用Acrobat的SDK(這個價格可不便宜);
3.XPDF:如果條件允許可以考慮使用XPDF的PDFToText,XPDF是用C語言編寫的PDF解析庫,并提供多個工具,開放源代碼(如果你熟悉C和dotnet,也許你可以在dotnet環境下編譯為你所用),但是基于GUN協議,如果商業應用,需要money;更多信息訪問:http://www.foolabs.com/xpdf
4.Ghostscript:另外一個可以考慮的是Ghostscript,官方網址是:www.cs.wisc.edu/~ghost/,抽取Text的方法,google下ps2txt;
5.其它一些相關資源:
http://www.mj10777.de/NETFramework/Desktop/SharpZipLib/PdfToTxt/index.htm
Extract Text from PDF File:http://www.codeproject.com/Purgatory/DotNetPDF.asp?df=100&forumid=104443
Code to extract plain text from a PDF file:http://www.codeproject.com/cpp/ExtractPDFText.asp?df=100&forumid=47947

順便說下,很多朋友詢問iTextSharp中抽取文本的方法,這里說下,就目前而言,iTextSharp還不支持這個功能,也無法抽取圖片,當然我通過摸索也只能抽取最簡單格式的圖片(jpeg),其它的還在研究怎么處理。


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 潼关县| 原阳县| 古丈县| 康马县| 克什克腾旗| 和田县| 广丰县| 布尔津县| 咸宁市| 攀枝花市| 吴桥县| 鄂尔多斯市| 甘孜| 克什克腾旗| 正蓝旗| 香港 | 新沂市| 凤城市| 玉田县| 铜川市| 全州县| 农安县| 志丹县| 盐津县| 苗栗市| 绿春县| 锦州市| 金坛市| 尚志市| 靖江市| 蓬莱市| 武穴市| 淳安县| 土默特右旗| 宿松县| 新疆| 方山县| 石门县| 都安| 四子王旗| 定南县|