国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

1分鐘快速生成用于網頁內容提取的xslt

2020-02-22 23:17:30
字體:
來源:轉載
供稿:網友

1分鐘快速生成用于網頁內容提取的xslt,具體內容如下

1、項目背景

在《Python即時網絡爬蟲項目說明》一文我們說過要做一個通用的網絡爬蟲,而且能節省程序員大半的時間,而焦點問題就是提取器使用的抓取規則需要快速生成。在python使用xslt提取網頁數據一文,我們已經看到這個提取規則是xslt程序,在示例程序中,直接把一長段xslt賦值給變量,但是沒有講這一段xslt是怎么來的。

網友必然會質疑:這個xslt這么長,編寫不是要花很長時間?

實際情況是,這個xslt是通過GooSeeker的MS謀數臺的直觀標注功能自動生成的,熟練的話1分鐘就搞定了。

2、MS謀數臺能做什么

MS謀數臺有個圖形化界面,把一系列html解析工具集成在一起,包括:

基于直觀標注自動生成XSLT 即時測試XSLT的正確性 樹狀的DOM結構展示 剖析某個DOM節點的屬性 為DOM節點生成XPath,可選擇定位到class、或者id、或者絕對定位 根據xpath搜索DOM節點

MS謀數臺界面分成三部分:DOM數窗口、內嵌瀏覽器窗口、工作臺。在工作臺上定義xslt轉換規則。

3、用MS謀數臺生成XSLT

假設我們要抓取論壇帖子列表,下面一步步講解操作方法:
第一步,打開GooSeeker的MS謀數臺,輸入要抓取的網址
第二步,在MS謀數臺的瀏覽器顯示窗口里,直接選取要提取的內容,并且起個名字,點擊確認

第三步,點擊工作臺的“測試”按鈕,xslt就生成了,在“數據規則”窗口顯示出來

通過以上的操作,不用編程,用圖形化界面直接在頁面上標注,1分鐘就可以生成xslt

4、怎樣使用XSLT

在python使用xslt提取網頁數據一文,我們把生成xslt作為一個字符串交給程序,給人感覺好像一下子回到了史前文明,前面講的那么好,最后用了很原始的拷貝。其實不然,那個只是一個例子。在《python即時網絡爬蟲項目: 內容提取器的定義》一文已經初見端倪了,有多種注入xslt的方式,最自動化的方式是api,將在后續文章中詳細講解。

5、文檔修改歷史

2016-05-28:V3.0,增加第二章
2016-05-26:V2.0,增補文字說明

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持武林站長站。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 彭泽县| 昌吉市| 唐山市| 厦门市| 微山县| 凉山| 萨嘎县| 汝阳县| 南京市| 阳西县| 泉州市| 辽中县| 星座| 通海县| 富民县| 青田县| 朝阳区| 滦平县| 安福县| 阿克苏市| 洮南市| 封丘县| 沅陵县| 禄丰县| 远安县| 元谋县| 宁强县| 临澧县| 怀远县| 顺平县| 时尚| 开江县| 荣昌县| 富阳市| 墨竹工卡县| 灌南县| 宁明县| 浦县| 长武县| 牟定县| 濮阳县|