国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > .NET > 正文

asp.net正則表達式刪除指定的HTML標簽的代碼

2024-07-10 12:54:03
字體:
來源:轉載
供稿:網友

在抓取網頁的數據的時候,如果網頁按原樣顯示,它可能會因為不包含閉合的html標記而中斷格式,或者它可能會使用更混亂的html標記來中斷保留的格式,下面錯新技術頻道小編就給大家介紹asp.net正則表達式刪除指定的HTML標簽的代碼。

如果全盤刪除里面的 HTML 標簽,可能會造成閱讀上的困難(比如 a, img 這些標簽), 最好是刪除一部分,保留一部分.

正則表達式里,判斷 包含某些字符串 是非常容易理解的,但是如何判斷 不包含某些字符串 (是字符串,不是字符,是某些,不是某個) 確實是個費解的事.

復制代碼 代碼如下:

<(?!((/?/s?li)|(/?/s?ul)|(/?/s?a)|(/?/s?img)|(/?/s?br)|(/?/s?span)|(/?/s?b)))[^>]+>


這個正則是判斷HTML標簽不包含 li / ul / a / img / br / span / b 的,就上面的要求來說,是要 刪除 除這里列出的HTML標簽,這也是我摸索了很長時間才搞出來的.
(?!exp) 匹配后面跟的不是exp的位置
/?/s? 我一開始試著把它寫到最前面的 < 后面,但是測試失敗了.

下面是一個簡單的函數,把要保留的TAG串起來,生成一個正則表達式,然后把不需要的TAG刪除...

?

復制代碼 代碼如下:

?


private static string RemoveSpecifyHtml(string ctx) {
string[] holdTags = { "a", "img", "br", "strong", "b", "span" };//要保留的 tag
// <(?!((/?/s?li)|(/?/s?ul)|(/?/s?a)|(/?/s?img)|(/?/s?br)|(/?/s?span)|(/?/s?b)))[^>]+>
string regStr = string.Format(@"<(?!((/?/s?{0})))[^>]+>", string.Join(@")|(/?/s?", holdTags));
Regex reg = new Regex(regStr, RegexOptions.Compiled | RegexOptions.Multiline | RegexOptions.IgnoreCase);


return reg.Replace(ctx, "");
}


修正:
上面的正則,如果保留了 li , 實際運行會發現 link 也給保留下來了, 保留 a 會把 addr 也給保留下來, 解決辦法就是加 /b 斷言.

?

復制代碼 代碼如下:

?


<(?!((/?/s?li/b)|(/?/s?ul)|(/?/s?a/b)|(/?/s?img/b)|(/?/s?br/b)|(/?/s?span/b)|(/?/s?b/b)))[^>]+>

private static string RemoveSpecifyHtml(string ctx) {
string[] holdTags = { "a", "img", "br", "strong", "b", "span", "li" };//保留的 tag
// <(?!((/?/s?li/b)|(/?/s?ul/b)|(/?/s?a/b)|(/?/s?img/b)|(/?/s?br/b)|(/?/s?span/b)|(/?/s?b/b)))[^>]+>
string regStr = string.Format(@"<(?!((/?/s?{0})))[^>]+>", string.Join(@"/b)|(/?/s?", holdTags));
Regex reg = new Regex(regStr, RegexOptions.Compiled | RegexOptions.Multiline | RegexOptions.IgnoreCase);

return reg.Replace(ctx, "");
}

?通過上述的介紹,大家對asp.net正則表達式刪除指定的HTML標簽的代碼了解了多少呢?其實小編只是略略的講了一些,如需更多專業的知識,請咨詢錯新技術頻道。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 蕲春县| 清丰县| 云安县| 安乡县| 广平县| 马边| 祁阳县| 华蓥市| 玉树县| 增城市| 阳原县| 宣城市| 黄大仙区| 紫阳县| 四子王旗| 闽侯县| 四子王旗| 伊金霍洛旗| 义马市| 临武县| 蓬溪县| 安陆市| 长丰县| 石渠县| 东乡族自治县| 三都| 济南市| 清水河县| 彰化县| 枣阳市| 巴楚县| 锦州市| 信丰县| 平利县| 镇远县| 中江县| 乐亭县| 稻城县| 西吉县| 宝山区| 澄城县|