国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

在Python下使用Txt2Html實現網頁過濾代理的教程

2020-02-23 00:38:50
字體:
來源:轉載
供稿:網友

在撰寫本 developerWorks 系列文章的過程中,我曾遇到過以最佳格式進行撰寫的問題。文字處理程序格式都是專用的,在格式之間轉換總不能盡如人意,也很麻煩(而且每種格式都會各自將文檔綁定到不同的專用工具,這種情況又與開放源碼的精神相違背)。HTML 還算中立 -- 也許您現在閱讀的文章正是這種格式 -- 但它也添加了標記,而這些標記很容易引起誤輸入(或者使人束縛于 HTML 增強型編輯器)。DocBook 是一種有趣的 XML 格式,它可以轉換成許多目標格式,并且它擁有技術文章(或書籍)的正確語義;但就像 HTML 一樣,在撰寫過程中會擔心許多標記。LaTeX 特別適合復雜的印刷格式;但它也有許多標記,而這些文章并不需要復雜的印刷格式。

為了在寫作時能真正省心 -- 特別是要具有平臺和工具的中立性 -- 無格式 ASCII 正是最好的選擇。但是,因特網(特別是 Usenet)建議在完全無格式文本的基礎上,開發一種“智能 ASCII”文檔的非正式標準(請參閱 參考資料 )。“智能 ASCII”只添加了一點額外的語義內容和上下文,而且它們在文本顯示中看起來是那么“自然”。電子郵件、新聞組郵件、FAQ、項目自述文件 (README) 和其它電子文檔通常包括一些印刷/語義元素,如強調字前后的星號、標題下的下劃線、描述文本關系的豎直和水平空格、有選擇性的全大寫和其它一些信息。Project Gutenberg(請參閱 參考資料 )是一種驚人的成果,它將許多想法加入其自身格式構思中,并認為“智能 ASCII”是長時間保存和分發好書的最佳選擇。即使這些文章不會像文學名著那樣經久不衰,仍決定將它們寫成“智能 ASCII”格式,并用方便的 Python 腳本將它們自動轉換成其它格式。
介紹 Txt2Html

Txt2Html 最初是一個簡單的文件轉換器,從其名稱上就可以看出。但因特網建議在工具上添加幾個明顯的增強功能。因為有許多讀者想以“HTML 化”格式查看的文檔都在 http: 或 ftp: 鏈接的后面,所以工具應該真正直接處理這樣的遠程文檔(而不需要下載/轉換/查看循環周期)。因為轉換的目標最終是 HTML,通常我們要做的就是在 Web 瀏覽器中查看轉換后的目標文檔。

將這些放到一起后,Txt2Html 就成了“基于 Web 的過濾代理”。這個詞很奇特,也許恰好能“完全表達其含義”。它們體現了以下想法:程序代表您閱讀 Web 頁面(或其它資源),以某種方式處理內容,然后以某種比原始頁面 更好 的形式(至少能滿足某些特殊目的)向您顯示該頁面。這種工具的一個很好例子就是 Babelfish 翻譯服務(請參閱 參考資料 )。在通過 Babelfish 運行了 URL 之后,您看到的 Web 頁面與原始頁面非常相似,但它顯示了您能夠讀懂的文字,而不是您不理解的語言。在某種程度上,所有顯示搜索結果頁面摘要的搜索引擎所做的都是相同的事情。但那些搜索引擎(按設計)在目標頁面的格式以及外觀方面有更多的自由度,同時會去掉許多內容。當然,Txt2Html 并不如 Babelfish 那樣功能強大;但概念上,它們很大程度上完成相同的事情。請參閱 參考資料以獲取更多的例子,其中一些還很幽默。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 大渡口区| 宁夏| 科技| 冕宁县| 比如县| 海城市| 台北县| 会同县| 弥勒县| 治多县| 烟台市| 横山县| 溧水县| 襄汾县| 东兴市| 汝州市| 天祝| 莒南县| 荥经县| 陆河县| 乌拉特前旗| 辽阳市| 通海县| 廊坊市| 社旗县| 大埔县| 自贡市| 靖边县| 延吉市| 丽水市| 太湖县| 林西县| 泾阳县| 六盘水市| 垣曲县| 文昌市| 金沙县| 论坛| 文安县| 喀喇沁旗| 正定县|