asp.net正則表達式刪除指定的HTML標簽的代碼

2024-07-10 12:54:03

字體：大中小

來源：轉載

供稿：網友

在抓取網頁的數據的時候，如果網頁按原樣顯示，它可能會因為不包含閉合的html標記而中斷格式，或者它可能會使用更混亂的html標記來中斷保留的格式，下面錯新技術頻道小編就給大家介紹asp.net正則表達式刪除指定的HTML標簽的代碼。

如果全盤刪除里面的 HTML 標簽,可能會造成閱讀上的困難(比如 a, img 這些標簽), 最好是刪除一部分,保留一部分.

正則表達式里,判斷包含某些字符串是非常容易理解的,但是如何判斷不包含某些字符串 (是字符串,不是字符,是某些,不是某個) 確實是個費解的事.

復制代碼代碼如下:

<(?!((/?/s?li)|(/?/s?ul)|(/?/s?a)|(/?/s?img)|(/?/s?br)|(/?/s?span)|(/?/s?b)))[^>]+>

這個正則是判斷HTML標簽不包含 li / ul / a / img / br / span / b 的,就上面的要求來說,是要刪除除這里列出的HTML標簽,這也是我摸索了很長時間才搞出來的.
(?!exp) 匹配后面跟的不是exp的位置
/?/s? 我一開始試著把它寫到最前面的 < 后面,但是測試失敗了.

下面是一個簡單的函數,把要保留的TAG串起來,生成一個正則表達式,然后把不需要的TAG刪除...

復制代碼代碼如下:

private static string RemoveSpecifyHtml(string ctx) {
string[] holdTags = { "a", "img", "br", "strong", "b", "span" };//要保留的 tag
// <(?!((/?/s?li)|(/?/s?ul)|(/?/s?a)|(/?/s?img)|(/?/s?br)|(/?/s?span)|(/?/s?b)))[^>]+>
string regStr = string.Format(@"<(?!((/?/s?{0})))[^>]+>", string.Join(@")|(/?/s?", holdTags));
Regex reg = new Regex(regStr, RegexOptions.Compiled | RegexOptions.Multiline | RegexOptions.IgnoreCase);


return reg.Replace(ctx, "");
}

修正:
上面的正則,如果保留了 li , 實際運行會發現 link 也給保留下來了, 保留 a 會把 addr 也給保留下來, 解決辦法就是加 /b 斷言.

復制代碼代碼如下:

<(?!((/?/s?li/b)|(/?/s?ul)|(/?/s?a/b)|(/?/s?img/b)|(/?/s?br/b)|(/?/s?span/b)|(/?/s?b/b)))[^>]+>

private static string RemoveSpecifyHtml(string ctx) {
string[] holdTags = { "a", "img", "br", "strong", "b", "span", "li" };//保留的 tag
// <(?!((/?/s?li/b)|(/?/s?ul/b)|(/?/s?a/b)|(/?/s?img/b)|(/?/s?br/b)|(/?/s?span/b)|(/?/s?b/b)))[^>]+>
string regStr = string.Format(@"<(?!((/?/s?{0})))[^>]+>", string.Join(@"/b)|(/?/s?", holdTags));
Regex reg = new Regex(regStr, RegexOptions.Compiled | RegexOptions.Multiline | RegexOptions.IgnoreCase);

return reg.Replace(ctx, "");
} 

?通過上述的介紹，大家對asp.net正則表達式刪除指定的HTML標簽的代碼了解了多少呢？其實小編只是略略的講了一些，如需更多專業的知識，請咨詢錯新技術頻道。

上一篇：終極絕殺技之防止重復提交的方法

下一篇：JS實現完美include加載功能代碼