国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發(fā) > PHP > 正文

基于curl數(shù)據(jù)采集之單頁面采集函數(shù)get_html的使用

2024-05-04 23:08:05
字體:
供稿:網(wǎng)友

這是一個系列 沒辦法在一兩天寫完 所以一篇一篇的發(fā)布

大致大綱:

1.curl數(shù)據(jù)采集系列之單頁面采集函數(shù)get_html

2.curl數(shù)據(jù)采集系列之多頁面并行采集函數(shù)get_htmls

3.curl數(shù)據(jù)采集系列之正則處理函數(shù)get _matches

4.curl數(shù)據(jù)采集系列之代碼分離

5.curl數(shù)據(jù)采集系列之并行邏輯控制函數(shù)web_spider


單頁面采集在數(shù)據(jù)采集過程中是最常用的一個功能 有時在服務(wù)器訪問限制的情況下 只能使用這種采集方式 慢 但是可以簡單的控制 所以寫好一個常用的curl函數(shù)調(diào)用是很重要的

百度和網(wǎng)易比較熟悉 所以拿這兩個網(wǎng)站首頁采集來做例子講解


最簡單的寫法:

復(fù)制代碼 代碼如下:


$url = 'http://www.baidu.com';
$ch = curl_init($url);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,true);
curl_setopt($ch,CURLOPT_TIMEOUT,5);
$html = curl_exec($ch);
if($html !== false){
echo $html;
}


由于使用頻繁 可以利用curl_setopt_array寫成函數(shù)的形式:

復(fù)制代碼 代碼如下:


function get_html($url,$options = array()){
$options[CURLOPT_RETURNTRANSFER] = true;
$options[CURLOPT_TIMEOUT] = 5;
$ch = curl_init($url);
curl_setopt_array($ch,$options);
$html = curl_exec($ch);
curl_close($ch);
if($html === false){
return false;
}
return $html;
}


復(fù)制代碼 代碼如下:


$url = 'http://www.baidu.com';
echo get_html($url);


有時候需要傳遞一些特定的參數(shù)才能得到正確的頁面 如現(xiàn)在要得到網(wǎng)易的頁面:

復(fù)制代碼 代碼如下:


$url = 'http://www.163.com';
echo get_html($url);


會看到一片空白 什么也沒有 那么再利用curl_getinfo寫一個函數(shù) 看看發(fā)生了什么:

復(fù)制代碼 代碼如下:


function get_info($url,$options = array()){
$options[CURLOPT_RETURNTRANSFER] = true;
$options[CURLOPT_TIMEOUT] = 5;
$ch = curl_init($url);
curl_setopt_array($ch,$options);
$html = curl_exec($ch);
$info = curl_getinfo($ch);
curl_close($ch);
return $info;
}
$url = 'http://www.163.com';
var_dump(get_info($url));

基于curl數(shù)據(jù)采集之單頁面采集函數(shù)get_html的使用

可以看到http_code 302 重定向了 這時候就需要傳遞一些參數(shù)了:

復(fù)制代碼 代碼如下:


$url = 'http://www.163.com';
$options[CURLOPT_FOLLOWLOCATION] = true;
echo get_html($url,$options);

基于curl數(shù)據(jù)采集之單頁面采集函數(shù)get_html的使用

會發(fā)現(xiàn) 怎么是這樣的一個頁面 和我們電腦訪問的不同???

看來參數(shù)還是不夠 不夠服務(wù)器判斷我們的客戶端是什么設(shè)備上的 就返回了個普通版

看來還要傳送USERAGENT

復(fù)制代碼 代碼如下:


$url = 'http://www.163.com';
$options[CURLOPT_FOLLOWLOCATION] = true;
$options[CURLOPT_USERAGENT] = 'Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0';
echo get_html($url,$options);

基于curl數(shù)據(jù)采集之單頁面采集函數(shù)get_html的使用

OK

當(dāng)然也有另外的辦法可以實現(xiàn),當(dāng)你明確的知道網(wǎng)易的網(wǎng)頁的時候就可以簡單采集了:

復(fù)制代碼 代碼如下:


$url = 'http://www.163.com/index.html';
echo get_html($url);


這樣也可以正常的采集

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 武隆县| 南乐县| 县级市| 松溪县| 玉树县| 雅江县| 庐江县| 长汀县| 昌邑市| 策勒县| 北安市| 北碚区| 红安县| 谷城县| 南平市| 左权县| 马公市| 博白县| 朝阳县| 三台县| 揭东县| 乌兰察布市| 阿鲁科尔沁旗| 天祝| 定州市| 麦盖提县| 河南省| 吴旗县| 历史| 桂平市| 青田县| 平乐县| 七台河市| 安泽县| 峡江县| 陈巴尔虎旗| 定结县| 二连浩特市| 吉水县| 长宁区| 屏东市|