国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 開發 > Java > 正文

JAVA使用HtmlUnit爬蟲工具模擬登陸CSDN案例

2024-07-14 08:43:04
字體:
來源:轉載
供稿:網友

最近要弄一個爬蟲程序,想著先來個簡單的模擬登陸, 在權衡JxBrowserHtmlUnit 兩種技術,  JxBowser有界面呈現效果,但是對于某些js跳轉之后的效果獲取比較繁瑣。

隨后考慮用HtmlUnit, 想著借用咱們CSND的登陸練練手。誰知道CSDN的登陸,js加載時間超長,不設置長一點的加載時間,按鈕提交根本沒效果,js沒生效。 具體看代碼注釋吧。 奉勸做爬蟲的同志們,千萬別用CSDN登陸練手,坑死我了。

maven配置如下:

 <dependencies> <!-- https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit --> <dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <version>2.18</version> </dependency> <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.9.2</version> </dependency> </dependencies>

代碼如下:

package com.test;import java.io.IOException;import java.net.MalformedURLException;import java.util.HashMap;import java.util.Map;import java.util.Set;import com.gargoylesoftware.htmlunit.BrowserVersion;import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;import com.gargoylesoftware.htmlunit.SilentCssErrorHandler;import com.gargoylesoftware.htmlunit.WebClient;import com.gargoylesoftware.htmlunit.html.HtmlButtonInput;import com.gargoylesoftware.htmlunit.html.HtmlForm;import com.gargoylesoftware.htmlunit.html.HtmlPage;import com.gargoylesoftware.htmlunit.html.HtmlPasswordInput;import com.gargoylesoftware.htmlunit.html.HtmlTextInput;import com.gargoylesoftware.htmlunit.util.Cookie;public class SimulateLogin{ //訪問的目標網址(CSDN) private static String TARGET_URL = "https://passport.csdn.net/account/login?from=http://www.csdn.net"; public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException {  // 模擬一個瀏覽器  WebClient webClient = new WebClient(BrowserVersion.CHROME);  // 設置webClient的相關參數  webClient.setCssErrorHandler(new SilentCssErrorHandler());   //設置ajax  webClient.setAjaxController(new NicelyResynchronizingAjaxController());  //設置支持js  webClient.getOptions().setJavaScriptEnabled(true);  //CSS渲染禁止  webClient.getOptions().setCssEnabled(false);  //超時時間  webClient.getOptions().setTimeout(50000);  //設置js拋出異常:false  webClient.getOptions().setThrowExceptionOnScriptError(false);  //允許重定向  webClient.getOptions().setRedirectEnabled(true);   //允許cookie  webClient.getCookieManager().setCookiesEnabled(true);   // 模擬瀏覽器打開一個目標網址  HtmlPage page = webClient.getPage(TARGET_URL);  /**等待js加載完全,CSDN這點 特別坑,js加載時間超長!!!!!!! 后人切記不要用CSDN模擬登陸!!!!!!!**/  webClient.waitForBackgroundJavaScript(10000*3);  // 根據form的名字獲取頁面表單,也可以通過索引來獲取:page.getForms().get(0)    HtmlForm form = (HtmlForm) page.getElementById("fm1");     HtmlTextInput username = (HtmlTextInput) form.getInputByName("username");   HtmlPasswordInput password = (HtmlPasswordInput) form.getInputByName("password");   username.setValueAttribute("********"); //用戶名  password.setValueAttribute("********"); //密碼  HtmlButtonInput button = (HtmlButtonInput) page.getByXPath("//input[contains(@class, 'logging')]").get(0);//  ScriptResult result = page.executeJavaScript("javascript:document.getElementsByClassName('logging')[0].click()");//  HtmlPage retPage = (HtmlPage) result.getNewPage();  HtmlPage retPage = button.click();  // 等待JS驅動dom完成獲得還原后的網頁   webClient.waitForBackgroundJavaScript(1000);   //輸出跳轉網頁的地址  System.out.println(retPage.getUrl().toString());   //輸出跳轉網頁的內容  System.out.println(retPage.asXml());  //獲取cookie   Set<Cookie> cookies = webClient.getCookieManager().getCookies();  Map<String, String> responseCookies = new HashMap<String, String>();   for (Cookie c : cookies) {    responseCookies.put(c.getName(), c.getValue());    System.out.print(c.getName()+":"+c.getValue());   }   webClient.close();  System.out.println("Success!"); }}

另外,CSDN的JS總是莫名其妙的報一堆錯,如果不想看,想忽略的話,在創建WebClient前加上如下代碼:

  //設置日志級別,原頁面js異常不打印  LogFactory.getFactory().setAttribute("org.apache.commons.logging.Log", "org.apache.commons.logging.impl.NoOpLog");     java.util.logging.Logger.getLogger("com.gargoylesoftware.htmlunit")    .setLevel(Level.OFF);    java.util.logging.Logger.getLogger("org.apache.commons.httpclient")    .setLevel(Level.OFF); 

總結

以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,謝謝大家對VeVb武林網的支持。


注:相關教程知識閱讀請移步到JAVA教程頻道。
發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 揭阳市| 沛县| 临沧市| 成武县| 罗平县| 新化县| 河北省| 霍邱县| 峨边| 大同市| 宁海县| 台山市| 罗田县| 遂宁市| 蕉岭县| 凤阳县| 额尔古纳市| 建平县| 山西省| 弥渡县| 石城县| 西畴县| 页游| 娄底市| 甘德县| 武川县| 静乐县| 固镇县| 仙桃市| 荆门市| 东乡族自治县| 黄浦区| 精河县| 冀州市| 锦屏县| 岳阳县| 阿坝县| 抚顺市| 龙川县| 昭平县| 黔西县|