在撰寫本 developerWorks 系列文章的過程中,我曾遇到過以最佳格式進行撰寫的問題。文字處理程序格式都是專用的,在格式之間轉換總不能盡如人意,也很麻煩(而且每種格式都會各自將文檔綁定到不同的專用工具,這種情況又與開放源碼的精神相違背)。HTML 還算中立 -- 也許您現在閱讀的文章正是這種格式 -- 但它也添加了標記,而這些標記很容易引起誤輸入(或者使人束縛于 HTML 增強型編輯器)。DocBook 是一種有趣的 XML 格式,它可以轉換成許多目標格式,并且它擁有技術文章(或書籍)的正確語義;但就像 HTML 一樣,在撰寫過程中會擔心許多標記。LaTeX 特別適合復雜的印刷格式;但它也有許多標記,而這些文章并不需要復雜的印刷格式。
為了在寫作時能真正省心 -- 特別是要具有平臺和工具的中立性 -- 無格式 ASCII 正是最好的選擇。但是,因特網(特別是 Usenet)建議在完全無格式文本的基礎上,開發一種“智能 ASCII”文檔的非正式標準(請參閱 參考資料 )。“智能 ASCII”只添加了一點額外的語義內容和上下文,而且它們在文本顯示中看起來是那么“自然”。電子郵件、新聞組郵件、FAQ、項目自述文件 (README) 和其它電子文檔通常包括一些印刷/語義元素,如強調字前后的星號、標題下的下劃線、描述文本關系的豎直和水平空格、有選擇性的全大寫和其它一些信息。Project Gutenberg(請參閱 參考資料 )是一種驚人的成果,它將許多想法加入其自身格式構思中,并認為“智能 ASCII”是長時間保存和分發好書的最佳選擇。即使這些文章不會像文學名著那樣經久不衰,仍決定將它們寫成“智能 ASCII”格式,并用方便的 Python 腳本將它們自動轉換成其它格式。
介紹 Txt2Html
Txt2Html 最初是一個簡單的文件轉換器,從其名稱上就可以看出。但因特網建議在工具上添加幾個明顯的增強功能。因為有許多讀者想以“HTML 化”格式查看的文檔都在 http: 或 ftp: 鏈接的后面,所以工具應該真正直接處理這樣的遠程文檔(而不需要下載/轉換/查看循環周期)。因為轉換的目標最終是 HTML,通常我們要做的就是在 Web 瀏覽器中查看轉換后的目標文檔。
將這些放到一起后,Txt2Html 就成了“基于 Web 的過濾代理”。這個詞很奇特,也許恰好能“完全表達其含義”。它們體現了以下想法:程序代表您閱讀 Web 頁面(或其它資源),以某種方式處理內容,然后以某種比原始頁面 更好 的形式(至少能滿足某些特殊目的)向您顯示該頁面。這種工具的一個很好例子就是 Babelfish 翻譯服務(請參閱 參考資料 )。在通過 Babelfish 運行了 URL 之后,您看到的 Web 頁面與原始頁面非常相似,但它顯示了您能夠讀懂的文字,而不是您不理解的語言。在某種程度上,所有顯示搜索結果頁面摘要的搜索引擎所做的都是相同的事情。但那些搜索引擎(按設計)在目標頁面的格式以及外觀方面有更多的自由度,同時會去掉許多內容。當然,Txt2Html 并不如 Babelfish 那樣功能強大;但概念上,它們很大程度上完成相同的事情。請參閱 參考資料以獲取更多的例子,其中一些還很幽默。
新聞熱點
疑難解答