国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

使用TaskManager爬取2萬條代理IP實現自動投票功能

2019-11-14 13:58:49
字體:
來源:轉載
供稿:網友

  話說某天心血來潮想到一個問題,朋友圈里面經常有人發投票鏈接,讓幫忙給XX投票,以前呢會很自覺打開鏈接幫忙投一票。可是這種事做多了就會考慮能不能使用工具來進行投票呢,身為一名程序猿決定研究解決這個問題。于是有了以下思考

  1.是否能一個人投多票,如果不行又是什么限制了一人投多票?

  答:投票網站限制了一個ip或者一個用戶只能投一票,防止惡意刷票行為

  2.如果是一個IP一票那是否代表著多個IP就能投多票了呢?

  答:答案是肯定的

  3.用什么方法能夠在代碼里面改變自己請求的IP?

  答:HTTP請求的時候設置代理IP

  4.多個代理IP從哪里獲取,獲取到之后我又該如何使用代碼自動化投票?

  答:請看文章后面內容

  本篇將介紹TaskManager內置任務-代理IP爬蟲實現細節,你需要準備的知識:HtmlAgilityPack解析HTML,Quart.net。

閱讀目錄

  • 代理IP介紹
  • HtmlAgilityPack使用
  • 代理IP爬蟲實現
  • 自動投票簡單實現
  • 總結
回到頂部

代理IP介紹

  百度百科介紹:代理(英語:PRoxy),也稱網絡代理,是一種特殊的網絡服務,允許一個網絡終端(一般為客戶端)通過這個服務與另一個網絡終端(一般為服務器)進行非直接的連接。一些網關、路由器等網絡設備具備網絡代理功能。一般認為代理服務有利于保障網絡終端的隱私或安全,防止攻擊。

  目前有很多廠商提供代理IP在線獲取,但是很多都是提供幾十個試用的,如果想使用更多的代理IP,則需付費購買。這里我找到了一個提供很多代理IP的網站,可以自行百度“代理ip”(以免認為我打廣告),或者參考開源TaskManager介紹這篇文章。

  有了這么多在線的代理IP可以解決文章開頭的問題4了,可是還有個問題這些數據都是網頁上的,我在代碼里面怎么使用呢?這就用到了HtmlAgilityPack工具包,看名稱就能猜到是用來解析HTML的。

回到頂部

HtmlAgilityPack使用

  HtmlAgilityPack是一個開源的解析HTML元素的類庫,最大的特點是可以通過XPath來解析HMTL,如果您以前用C#操作過xml,那么使用起HtmlAgilityPack也會得心應手。

  解析簡單的HTML

string HTML = @"<html><head><title>簡單解析測試</title></head><body>                    <div id='div1' title='div1'>                        <table>                             <tr>                                <td>1</td>                                <td title='cn'>cn</td>                            </tr>                        </table>                    </div>                </body></html>";            var doc = new HtmlDocument();            doc.LoaDHTML(HTML);            //輸出頁面標題            Console.WriteLine("頁面title:"+doc.DocumentNode.SelectSingleNode("/html/head/title").InnerText);            //獲取div1節點  方式1            HtmlNode divNode1 = doc.GetElementbyId("div1");            //獲取div1節點  方式2            HtmlNode divNode2 = doc.DocumentNode.SelectSingleNode("//div[@id='div1']");            //判斷節點1和節點2是否相同            Console.WriteLine("斷節點1和節點2是否相同:" + (divNode1 == divNode2));            //獲取頁面所有table            HtmlNodeCollection tableCollection = doc.DocumentNode.SelectNodes("//table");            Console.WriteLine("頁面table數量:"+tableCollection.Count);            //獲取table下所有td并輸出信息            HtmlNodeCollection tdCollection = tableCollection[0].SelectNodes("tr/td");            foreach (var td in tdCollection)            {                HtmlAttribute atr = td.Attributes["title"];                Console.WriteLine("td InnerText:" + td.InnerText + " | td title屬性值:" + (atr == null ? "" : atr.Value));            }            Console.Read();

 

回到頂部

代理IP爬蟲實現

  會了HtmlAgilityPack的一些簡單操作之后進入正式爬取過程,由于需要爬取的網頁帶IP封鎖功能(一段時間請求頻率過高封鎖當前IP),在設計過程中我采用了爬取五次自動換代理IP突破網站限制(感覺自己壞壞的)。

 

              整體實現邏輯

  在.net里面使用WebRequest可以模擬HTTP的get Post請求,最終要的一點能設置請求時使用的代理IP,重點關注我標紅的代碼

/// <summary>        /// 代理使用示例        /// </summary>        /// <param name="Url"></param>        /// <param name="type"></param>        /// <returns></returns>        public static string GetUrltoHtml(string Url, string type)        {            try            {                var request = (HttpWebRequest)WebRequest.Create(Url);          request.UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)";                WebProxy myProxy = new WebProxy("192.168.15.11", 8015);                //建議連接(代理需要身份認證,才需要用戶名密碼)                myProxy.Credentials = new NetworkCredential("admin", "123456");                //設置請求使用代理信息                request.Proxy = myProxy;                // Get the response instance.                System.Net.WebResponse wResp = request.GetResponse();                System.IO.Stream respStream = wResp.GetResponseStream();                // Dim reader As StreamReader = New StreamReader(respStream)                using (System.IO.StreamReader reader = new System.IO.StreamReader(respStream, Encoding.GetEncoding(type)))                {                    return reader.ReadToEnd();                }            }            catch (System.Exception ex)            {                //errorMsg = ex.Message;            }            return "";        }

  了解如何使用代理IP,離我們的目標又近了一步,下面就是代理IP獲取的實現了,由于代碼有點多,我這里只貼出重要部分,IpProxyGet.cs源碼可到文章末尾自行下載。

        /// <summary>        /// 獲取總頁數        /// </summary>        /// <returns>總頁數</returns>        private static int GetTotalPage(string IPURL, string ProxyIp)        {            var doc = new HtmlDocument();            doc.LoadHtml(GetHTML(IPURL, ProxyIp));            var res = doc.DocumentNode.SelectNodes(@"//div[@class='pagination']/a");            if (res != null && res.Count > 2)            {                int page;                if (int.TryParse(res[res.Count - 2].InnerText, out page))                {                    return page;                }            }            return 1;        }

 解析每一頁HTML數據

 /// <summary>        /// 解析每一頁數據        /// </summary>        /// <param name="param"></param>        private static void DoWork(object param)        {            //參數還原            Hashtable table = param as Hashtable;            int start = Convert.ToInt32(table["start"]);            int end = Convert.ToInt32(table["end"]);            List<IPProxy> list = table["list"] as List<IPProxy>;            ProxyParam Param = table["param"] as ProxyParam;            //頁面地址            string url = string.Empty;            string ip = string.Empty;            IPProxy item = null;            HtmlNodeCollection nodes = null;            HtmlNode node = null;            HtmlAttribute atr = null;            for (int i = start; i <= end; i++)            {                LogHelper.WriteLog(string.Format("開始解析,頁碼{0}~{1},當前頁碼{2}", start, end, i));                url = string.Format("{0}/{1}", Param.IPUrl, i);                var doc = new HtmlDocument();                doc.LoadHtml(GetHTML(url, Param.ProxyIp));                //獲取所有數據節點tr                var trs = doc.DocumentNode.SelectNodes(@"//table[@id='ip_list']/tr");                if (trs != null && trs.Count > 1)                {                    LogHelper.WriteLog(string.Format("當前頁碼{0},請求地址{1},共{2}條數據", i, url, trs.Count));                    for (int j = 1; j < trs.Count; j++)                    {                        nodes = trs[j].SelectNodes("td");                        if (nodes != null && nodes.Count > 9)                        {                            ip = nodes[2].InnerText.Trim();                            if (Param.IsPingIp && !Ping(ip))                            {                                continue;                            }                            //有效的IP才添加                            item = new IPProxy();                            node = nodes[1].FirstChild;                            if (node != null)                            {                                atr = node.Attributes["alt"];                                if (atr != null)                                {                                    item.Country = atr.Value.Trim();                                }                            }                            item.IP = ip;                            item.Port = nodes[3].InnerText.Trim();                            item.ProxyIp = GetIP(item.IP, item.Port);                            item.Position = nodes[4].InnerText.Trim();                            item.Anonymity = nodes[5].InnerText.Trim();                            item.Type = nodes[6].InnerText.Trim();                            node = nodes[7].SelectSingleNode("div[@class='bar']");                            if (node != null)                            {                                atr = node.Attributes["title"];                                if (atr != null)                                {                                    item.Speed = atr.Value.Trim();                                }                            }                            node = nodes[8].SelectSingleNode("div[@class='bar']");                            if (node != null)                            {                                atr = node.Attributes["title"];                                if (atr != null)                                {                                    item.ConnectTime = atr.Value.Trim();                                }                            }                            item.VerifyTime = nodes[9].InnerText.Trim();                            list.Add(item);                        }                    }                    LogHelper.WriteLog(string.Format("當前頁碼{0},共{1}條數據", i, trs.Count));                }                LogHelper.WriteLog(string.Format("結束解析,頁碼{0}~{1},當前頁碼{2}", start, end, i));            }        }
View Code

 最終會獲取2萬多條數據

回到頂部

自動投票簡單實現

  這里使用.net的WebBrowser控件來加載頁面,最終效果如下

 #region 設置代理IP        private void button2_Click(object sender, EventArgs e)        {            string proxy = this.textBox1.Text;            RefreshIESettings(proxy);            IEProxy ie = new IEProxy(proxy);            ie.RefreshIESettings();            //MessageBox.Show(ie.RefreshIESettings().ToString());        }        #endregion        #region 取消代理IP        private void button3_Click(object sender, EventArgs e)        {            IEProxy ie = new IEProxy(null);            ie.DisableIEProxy();        }        #endregion        #region 打開網頁        private void button1_Click(object sender, EventArgs e)        {            string url = txt_url.Text.Trim();            if (string.IsNullOrEmpty(url))            {                MessageBox.Show("請輸入要打開的網址");                return;            }            this.webBrowser1.Navigate(url, null, null, null);        }        #endregion

 

回到頂部

總結

      本篇要介紹的內容到此結束了,下面寫點我的期待!希望有喜歡的朋友一起來完善TaskManager(完全開源的),使之成為一款能夠提高生活便捷性的工具,添加很多新任務。比如:第二天要下雨或者下雪,發個郵件提醒,帶上雨傘...。好了到了放出源代碼的時間了。敬請期待下一篇!

  簡單投票源代碼:http://files.VEVb.com/files/yanweidie/SimpleIP.rar

      TaskManagerSVN地址:http://code.taobao.org/svn/TaskManagerPub/Branch   使用svn checkout指令進行下載。

  GitHub地址:https://github.com/CrazyJson/TaskManager

      體驗工具下載地址:TaskManager  解壓后文件執行合并SQL,修改Config.xml數據庫連接,使用WSWinForm進行安裝。

      


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 安徽省| 辽阳市| 桐城市| 镇巴县| 烟台市| 清远市| 文登市| 曲阳县| 临桂县| 陇南市| 辽阳县| 武山县| 南和县| 怀化市| 通海县| 阿坝县| 平舆县| 库伦旗| 乌苏市| 辰溪县| 普格县| 铁岭县| 濉溪县| 宕昌县| 屏东县| 根河市| 原平市| 岳西县| 容城县| 峨边| 清水河县| 图片| 扶风县| 井研县| 奉节县| 综艺| 广宁县| 延边| 彝良县| 察隅县| 荣昌县|