国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 開發設計 > 正文

python自帶re模塊正則表達式去除html標簽

2019-11-14 10:47:40
字體:
來源:轉載
供稿:網友

本文轉載自:python自帶re模塊正則表達式去除html標簽

利用正則式處理,不知道會不會有性能問題,沒有經過太多測試。 目前我有很多還是使用BeautifulSoup進行這種處理。 HTML實體處理的只是用于處理一些常用的實體。

# -*- coding: utf-8-*-import re##過濾HTML中的標簽#將HTML中標簽等信息去掉#@param htmlstr HTML字符串.def filter_tags(htmlstr): #先過濾CDATA re_cdata=re.compile('//<!/[CDATA/[[^>]*///]/]>',re.I) #匹配CDATA re_scrPRint news

——————————————————華麗的分割線——————————————————————————

import urllib2,rex=urllib2.urlopen('http://www.csdn.net').read()re_h=re.compile('</?/w+[^>]*>')s=re_h.sub('',x)print s
上一篇:leecode 268. Missing Number

下一篇:完全背包

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 梁河县| 永川市| 玛沁县| 青州市| 青河县| 汉沽区| 秦皇岛市| 霍州市| 阿合奇县| 荥阳市| 朝阳市| 广昌县| 永德县| 米易县| 南投市| 云林县| 什邡市| 靖安县| 额敏县| 轮台县| 茂名市| 松阳县| 买车| 汨罗市| 绥化市| 扎囊县| 辽阳县| 江川县| 东城区| 南和县| 云和县| 农安县| 安陆市| 武隆县| 长沙县| 隆林| 泰顺县| 台南市| 佛山市| 镇巴县| 香港 |