在Python下使用Txt2Html實現網頁過濾代理的教程

2020-02-23 00:38:50

字體：大中小

來源：轉載

供稿：網友

在撰寫本 developerWorks 系列文章的過程中，我曾遇到過以最佳格式進行撰寫的問題。文字處理程序格式都是專用的，在格式之間轉換總不能盡如人意，也很麻煩（而且每種格式都會各自將文檔綁定到不同的專用工具，這種情況又與開放源碼的精神相違背）。HTML 還算中立 -- 也許您現在閱讀的文章正是這種格式 -- 但它也添加了標記，而這些標記很容易引起誤輸入（或者使人束縛于 HTML 增強型編輯器）。DocBook 是一種有趣的 XML 格式，它可以轉換成許多目標格式，并且它擁有技術文章（或書籍）的正確語義；但就像 HTML 一樣，在撰寫過程中會擔心許多標記。LaTeX 特別適合復雜的印刷格式；但它也有許多標記，而這些文章并不需要復雜的印刷格式。

為了在寫作時能真正省心 -- 特別是要具有平臺和工具的中立性 -- 無格式 ASCII 正是最好的選擇。但是，因特網（特別是 Usenet）建議在完全無格式文本的基礎上，開發一種“智能 ASCII”文檔的非正式標準（請參閱參考資料）。“智能 ASCII”只添加了一點額外的語義內容和上下文，而且它們在文本顯示中看起來是那么“自然”。電子郵件、新聞組郵件、FAQ、項目自述文件 (README) 和其它電子文檔通常包括一些印刷／語義元素，如強調字前后的星號、標題下的下劃線、描述文本關系的豎直和水平空格、有選擇性的全大寫和其它一些信息。Project Gutenberg（請參閱參考資料）是一種驚人的成果，它將許多想法加入其自身格式構思中，并認為“智能 ASCII”是長時間保存和分發好書的最佳選擇。即使這些文章不會像文學名著那樣經久不衰，仍決定將它們寫成“智能 ASCII”格式，并用方便的 Python 腳本將它們自動轉換成其它格式。
介紹 Txt2Html

Txt2Html 最初是一個簡單的文件轉換器，從其名稱上就可以看出。但因特網建議在工具上添加幾個明顯的增強功能。因為有許多讀者想以“HTML 化”格式查看的文檔都在 http: 或 ftp: 鏈接的后面，所以工具應該真正直接處理這樣的遠程文檔（而不需要下載／轉換／查看循環周期）。因為轉換的目標最終是 HTML，通常我們要做的就是在 Web 瀏覽器中查看轉換后的目標文檔。

將這些放到一起后，Txt2Html 就成了“基于 Web 的過濾代理”。這個詞很奇特，也許恰好能“完全表達其含義”。它們體現了以下想法：程序代表您閱讀 Web 頁面（或其它資源），以某種方式處理內容，然后以某種比原始頁面更好的形式（至少能滿足某些特殊目的）向您顯示該頁面。這種工具的一個很好例子就是 Babelfish 翻譯服務（請參閱參考資料）。在通過 Babelfish 運行了 URL 之后，您看到的 Web 頁面與原始頁面非常相似，但它顯示了您能夠讀懂的文字，而不是您不理解的語言。在某種程度上，所有顯示搜索結果頁面摘要的搜索引擎所做的都是相同的事情。但那些搜索引擎（按設計）在目標頁面的格式以及外觀方面有更多的自由度，同時會去掉許多內容。當然，Txt2Html 并不如 Babelfish 那樣功能強大；但概念上，它們很大程度上完成相同的事情。請參閱參考資料以獲取更多的例子，其中一些還很幽默。

上一篇：Python函數參數類型*、**的區別

下一篇：Python選擇排序、冒泡排序、合并排序代碼實例