国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學院 > 操作系統(tǒng) > 正文

python獲取知乎日報另存為txt文件

2024-06-28 13:21:01
字體:
供稿:網(wǎng)友
python獲取知乎日報另存為txt文件

前言

拿來練手的,比較簡單(且有bug),歡迎交流~

功能介紹

抓取當日的知乎日報的內(nèi)容,并將每篇博文另存為一個txt文件,集中放在一個文件夾下,文件夾名字為當日時間。

使用的庫

re,BeautifulSoup,sys,urllib2

注意事項

1.運行環(huán)境是linux,python2.7.x,想在win上使用直接改一下里邊的命令就可以了

2.bug是在處理 “如何正確吐槽”的時候只能獲取第一個(懶癌發(fā)作了)

3.直接獲取(如下)內(nèi)容是不可以的,知乎做了反抓取的處理

urllib2.urlop(url).read()

所以加個Headers就可以了

4.因為zhihudaily.ahorn.me這個網(wǎng)站時不時掛掉,所以有時候會出現(xiàn)錯誤

1 def getHtml(url):2     header={'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1','Referer' : '******'}3     request=urllib2.Request(url,None,header)4     response=urllib2.urlopen(request)5     text=response.read()6     return text

4.在做內(nèi)容分析的時候可以直接使用re,也可以直接調(diào)用BeautifulSoup里的函數(shù)(我對正則表達式發(fā)怵,所以直接bs),比如

1 def saveText(text):2     soup=BeautifulSoup(text)3     filename=soup.h2.get_text()+".txt"4     fp=file(filename,'w')5     content=soup.find('div',"content")6     content=content.get_text()

show me the code

 1 #Filename:getZhihu.py 2 import re 3 import urllib2 4 from bs4 import BeautifulSoup 5 import sys 6  7 reload(sys) 8 sys.setdefaultencoding("utf-8") 9 10 #get the html code11 def getHtml(url):12     header={'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1','Referer' : '******'}13     request=urllib2.Request(url,None,header)14     response=urllib2.urlopen(request)15     text=response.read()16     return text17 #save the content in txt files18 def saveText(text):19     soup=BeautifulSoup(text)20     filename=soup.h2.get_text()+".txt"21     fp=file(filename,'w')22     content=soup.find('div',"content")23     content=content.get_text()24     25 #   PRint content #test26     fp.write(content)27     fp.close()28 #get the urls from the zhihudaily.ahorn.com29 def getUrl(url):30     html=getHtml(url) 31 #   print html32     soup=BeautifulSoup(html)33     urls_page=soup.find('div',"post-body")34 #   print urls_page35 36     urls=re.findall('"((http)://.*?)"',str(urls_page))37     return urls 38 #main() founction39 def main():40     page="http://zhihudaily.ahorn.me"41     urls=getUrl(page)42     for url in urls:43         text=getHtml(url[0])44         saveText(text)45 46 if __name__=="__main__":47     main()


發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 六安市| 庆安县| 莲花县| 墨脱县| 自贡市| 扶风县| 伊宁县| 扎囊县| 韶山市| 交口县| 铁力市| 红原县| 泾源县| 同仁县| 龙江县| 长宁区| 宁海县| 瑞丽市| 韶关市| 南昌市| 盘山县| 凤冈县| 于都县| 会昌县| 建水县| 平阴县| 定日县| 尼玛县| 昌江| 阜宁县| 大同市| 清流县| 长汀县| 常宁市| 准格尔旗| 日喀则市| 呼伦贝尔市| 来凤县| 孝义市| 衡水市| 德州市|