国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 編程 > .NET > 正文

正則方式的自動(dòng)小偷抓網(wǎng)程序

2020-01-18 00:36:30
字體:
來(lái)源:轉(zhuǎn)載
供稿:網(wǎng)友
有一些瑕疵沒(méi)時(shí)間細(xì)化,只是實(shí)現(xiàn)了效果,大家看一看這個(gè)正則該怎么寫好:
URL:http://news.szhome.com/83642.html
內(nèi)容:
復(fù)制代碼 代碼如下:

object></div></div>
</div>

<div class="share"><div class="linkshare" style="right: 0">

這兩個(gè)標(biāo)記之間的代碼。END標(biāo)記的問(wèn)題解決了,但是郁悶的是START截取的標(biāo)記因?yàn)榈诙€(gè)DIV和第三個(gè)中間有換行,我無(wú)語(yǔ)了不知道怎么處理這個(gè)正則。
而且郁悶的是有多處有這種重復(fù)型標(biāo)記,對(duì)正則不太熟悉,我的解決方法如下:

復(fù)制代碼 代碼如下:

MatchCollection mc = Regex.Matches(ghoPage.Trim(), @"(?<=<div class=['""]txtmsg['""]>)[/s/S]*?(?=<div class=['""]share['""]><div class=)", RegexOptions.CultureInvariant | RegexOptions.IgnoreCase);
foreach (Match mm in mc)
{
sb.Append(mc[0].Value.Substring(1933, mc[0].Value.Length - 1933));
}

我算出截取出來(lái)多處兩個(gè)FLASH廣告DIV的長(zhǎng)度是1933,然后處理字符串截取后得到我想要的文本,這樣做的劣勢(shì)就是萬(wàn)一該站改變了兩個(gè)FLASH廣告DIV的長(zhǎng)度我獲取的數(shù)據(jù)就不是完整的呢,有興趣的研究下,看看換行的DIV正則問(wèn)題怎么處理。
里面用到了自己寫的一個(gè)BUTTON控件,可以在點(diǎn)擊后禁止重復(fù)點(diǎn)擊,然后就是一些判斷,在思路上蠻不錯(cuò),可以做到一直抓取,因?yàn)椴唤?jīng)常用就沒(méi)做成WINDOWS服務(wù)類型,這樣的程序可以做成WINDOWS服務(wù),把規(guī)則寫在INI文件中,抓錄的規(guī)則和正則也放在配置文件中,這樣就能實(shí)現(xiàn)自動(dòng)抓錄。

很短的代碼,對(duì)這種抓錄有興趣的朋友可以嘗試下。下載
發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 长沙县| 汝州市| 台北县| 文成县| 昆明市| 安西县| 璧山县| 师宗县| 抚州市| 镇巴县| 平山县| 姚安县| 奉贤区| 长岭县| 阿拉善盟| 海林市| 广州市| 家居| 福安市| 永济市| 滕州市| 天台县| 吉木乃县| 石门县| 台江县| 旌德县| 甘肃省| 余干县| 长寿区| 新沂市| 平陆县| 五峰| 若尔盖县| 铅山县| 兰州市| 江阴市| 增城市| 合山市| 望谟县| 成安县| 肇州县|