python 扒取大主宰

2019-11-14 12:27:50

字體：大中小

來源：轉載

供稿：網友

import urllib.requestimport redef getHtml(url):    page = urllib.request.urlopen(url)    html = page.read()    return htmldef getTxt(html):    html_txt = str(html, encoding="utf-8")    start = html_txt.find("<h1>") + 4    end = html_txt.find('</h1>')    txt = html_txt[start:end]+"/n"    start = html_txt.find('<div id="content">') + 25    end = html_txt.find('<scrPRint(count)這是用python 3.4寫的一個扒取大主宰的一個小項目
最近在看python 3，沒學過python2.x照著網上的一些關于python2.x寫的關于一些關于網絡爬蟲的代碼（http://www.survivalescaperooms.com/fnng/p/3576154.html）寫了這個扒取筆趣閣上大主宰的代碼
但是我卻覺得不是很好，也請各路大神指教
下面我先說在此過程中遇到的一些問題
1、我不是很了解什么事網絡爬蟲，也不知道如何篩選有用的URL，所以寫的代碼很僵硬，沒有很好的移植性
2、在扒取正文正文時遇到過一個問題，遇到一些非法字符不能讀取
希望以后的學習中能改善這些題

上一篇：Java中byte數組和16進制字符串互相轉換

下一篇：神經網絡與深度學習(二)cpp-c++BP神經網絡