說到Java的本地存儲,肯定使用IO流進(jìn)行操作。
首先,我們需要一個創(chuàng)建文件的函數(shù)createNewFile:
然后,我們需要一個寫入文件的函數(shù):
我們把這兩個函數(shù)封裝到一個FileReaderWriter.java文件中以便后續(xù)使用。
接著我們回到知乎爬蟲中。
我們需要給知乎的Zhihu封裝類加個函數(shù),用來格式化寫入到本地時的排版。
OK,這樣就差不多了,接下來吧mian方法中的System.out.println改成
運行,便可以看到本來在控制臺看到的內(nèi)容已經(jīng)被寫到了本地的txt文件里:
大體一看沒什么問題,仔細(xì)看看發(fā)現(xiàn)問題:存在太多的html標(biāo)簽,主要是<b>和<br>。
我們可以在輸出的時候?qū)@些標(biāo)記進(jìn)行處理。
先把<br>換成io流里面的/r/n,再把所有的html標(biāo)簽都刪除,這樣看起來便會清晰很多。
這里的replaceAll函數(shù)可以使用正則,于是所有的<>標(biāo)簽在最后就都被刪除了。
新聞熱點
疑難解答
圖片精選