国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > PHP > 正文

PHP采集類snoopy實例介紹

2020-03-22 19:01:42
字體:
來源:轉載
供稿:網友
snoopy是一個php類,用來模仿web瀏覽器的功能,它能完成獲取網頁內容和發送表單的任務。官方網站 http://snoopy.sourceforge.net/

Snoopy的一些功能特點:

  • 抓取網頁的內容 fetch()

  • 抓取網頁的文本內容 (去除HTML標簽) fetchtext()

  • 抓取網頁的鏈接,表單 fetchlinks() fetchform()

  • 支持代理主機

  • 支持基本的用戶名/密碼驗證

  • 支持設置 user_agent, referer(來路), cookies 和 header content(頭文件)

  • 支持瀏覽器重定向,并能控制重定向深度

  • 能把網頁中的鏈接擴展成高質量的url(默認)

  • 提交數據并且獲取返回值

  • 支持跟蹤HTML框架

  • 支持重定向的時候傳遞cookies

要求php4以上就可以。由于本身是php一個類,無需擴支持,服務器不支持curl時候的最好選擇。

類方法

1. fetch($uri)

這是為了抓取網頁的內容而使用的方法。$URI參數是被抓取網頁的URL地址。抓取的結果被存儲在 $this->results 中。

如果你正在抓取的是一個框架,Snoopy將會將每個框架追蹤后存入數組中,然后存入 $this->results。

  1. <?php  $url = "http://www.nowamagic.net/librarys/veda/";  include("./Snoopy.html' target='_blank'>class.php");  $snoopy = new Snoopy;  $snoopy->fetch($url);        //獲取所有內容echo $snoopy->results;       //顯示結果?>

2. fetchtext($URI)

本方法類似于fetch(),唯一不同的就是本方法會去除HTML標簽和其他的無關數據,只返回網頁中的文字內容。

  1. <?php  $url = "http://www.nowamagic.net/librarys/veda/";  include("./Snoopy.class.php");  $snoopy = new Snoopy;  $snoopy->fetchtext($url);        //獲取文本內容echo $snoopy->results;       //顯示結果?>

3. fetchform($URI)

本方法類似于fetch(),唯一不同的就是本方法會去除HTML標簽和其他的無關數據,只返回網頁中表單內容(form)。

4. fetchlinks($URI)

本方法類似于fetch(),唯一不同的就是本方法會去除HTML標簽和其他的無關數據,只返回網頁中鏈接(link)。默認情況下,相對鏈接將自動補全,轉換成完整的URL。

5. submit($URI,$formvars)

本方法向$URL指定的鏈接地址發送確認表單。$formvars是一個存儲表單參數的數組。

6. submittext($URI,$formvars)

本方法類似于submit(),唯一不同的就是本方法會去除HTML標簽和其他的無關數據,只返回登陸后網頁中的文字內容。

7. submitlinks($URI)

本方法類似于submit(),唯一不同的就是本方法會去除HTML標簽和其他的無關數據,只返回網頁中鏈接(link)。默認情況下,相對鏈接將自動補全,轉換成完整的URL。

類屬性 (缺省值在括號里)

  • $host 連接的主機

  • $port 連接的端口

  • $proxy_host 使用的代理主機,如果有的話

  • $proxy_port 使用的代理主機端口,如果有的話

  • $agent 用戶代理偽裝 (Snoopy v0.1)

  • $referer 來路信息,如果有的話

  • $cookies cookies, 如果有的話

  • $rawheaders 其他的頭信息, 如果有的話

  • $maxredirs 最大重定向次數, 0=不允許 (5)

  • $offsiteok whether or not to allow redirects off-site. (true)

  • $expandlinks 是否將鏈接都補全為完整地址 (true)

  • $user 認證用戶名, 如果有的話

  • $pass 認證用戶名, 如果有的話

  • $accept http 接受類型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)

  • $error 哪里報錯, 如果有的話

  • $response_code 從服務器返回的響應代碼

  • $headers 從服務器返回的頭信息

  • $maxlength 最長返回數據長度

  • $read_timeout 讀取操作超時 (requires PHP 4 Beta 4+),設置為0為沒有超時

  • $timed_out 如果一次讀取操作超時了,本屬性返回 true (requires PHP 4 Beta 4+)

  • $maxframes 允許追蹤的框架最大數量

  • $status 抓取的http的狀態

  • $temp_dir 網頁服務器能夠寫入的臨時文件目錄 (/tmp)

  • $curl_path cURL binary 的目錄, 如果沒有cURL binary就設置為 false

Demo

    鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 孙吴县| 襄汾县| 奇台县| 洮南市| 海原县| 梨树县| 襄城县| 长汀县| 商都县| 元江| 堆龙德庆县| 鲜城| 晋州市| 肇东市| 泊头市| 彰化市| 弥勒县| 汉寿县| 兴和县| 万源市| 岳西县| 同心县| 宣城市| 扶沟县| 青冈县| 浦江县| 丹巴县| 阿荣旗| 虹口区| 富顺县| 牙克石市| 四平市| 临西县| 咸宁市| 阿拉善左旗| 海安县| 泌阳县| 名山县| 渑池县| 曲松县| 高州市|