用HtmlParser 寫個簡單的 news爬蟲

2020-03-24 18:38:46

字體：大中小

來源：轉載

供稿：網友

有一段時間沒寫博客了，這幾天回到學校我同學要趕著交畢業設計，讓我幫他寫個爬蟲，專門抓搜狐的新聞，我用過爬蟲，但是從來沒有自己寫過爬蟲，于是Google了一下，找到了一篇不錯的文章：使用 HttpClient 和 HtmlParser 實現簡易爬蟲 . 參考里面的代碼，自己寫了個簡易的搜狐新聞爬蟲。爬蟲的主要工做就是到搜狐的新聞首頁上去抓取新聞，然后將新聞添加到數據庫中。代碼其實很簡單的： LinkParser.javaimport com.sohu.SohuNews;
import java.util.HashSet;
import java.util.Set;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;/**
* 這個類是用來搜集新聞鏈接地址的。將符合正則表達式的URL添加到URL數組中。
* @author guanminglin
*/
public class LinkParser {
// 獲取一個網站上的鏈接,filter 用來過濾鏈接 public static Set String extracLinks(String url, LinkFilter filter) { Set String links = new HashSet String
try {
Parser parser = new Parser(url);
parser.setEncoding("gb2312");
// 過濾 frame 標簽的 filter，用來提取 frame 標簽里的 src 屬性所表示的鏈接
NodeFilter frameFilter = new NodeFilter() { public boolean accept(Node node) {
if (node.getText().startsWith("frame src=")) {
return true;
} else {
return false;
}
}
};
// OrFilter 來設置過濾 a 標簽，和 frame 標簽
OrFilter linkFilter = new OrFilter(new NodeClassFilter(
LinkTag.class), frameFilter);
// 得到所有經過過濾的標簽
NodeList list = parser.extractAllNodesThatMatch(linkFilter);
for (int i = 0; i list.size(); i++) {
Node tag = list.elementAt(i);
if (tag instanceof LinkTag)// a 標簽
{
LinkTag link = (LinkTag) tag;
String linkUrl = link.getLink();// url
if (filter.accept(linkUrl)) {
links.add(linkUrl);
}
} else// frame 標簽
{
// 提取 frame 里 src 屬性的鏈接如 frame src="test.html"/
String frame = tag.getText();
int start = frame.indexOf("src=");
frame = frame.substring(start);
int end = frame.indexOf(" ");
if (end == -1) {
end = frame.indexOf("
}
String frameUrl = frame.substring(5, end - 1);
if (filter.accept(frameUrl)) {
links.add(frameUrl);
}
}
}
} catch (ParserException e) {
e.printStackTrace();
}
return links;
} public void doParser(String url) {
SohuNews news = new SohuNews();
Set String links = LinkParser.extracLinks(
url, new LinkFilter() {
//提取以 http://news.sohu.com 開頭的鏈接 public boolean accept(String url) {
if (url.matches("http://news.sohu.com/[//d]+/n[//d]+.shtml")) {
return true;
} else {
return false;
}
}
});
//循環迭代出連接，然后提取該連接中的新聞。
for (String link : links) {
System.out.println(link);
news.parser(link); //解析連接

}
} //測試主頁新聞，可以得到主頁上所有符合要求的網頁地址，并進行訪問。
public static void main(String[] args) {
String url = "http://news.sohu.com/";
LinkParser parser = new LinkParser();
parser.doParser(url); }
} 上面這段帶碼比較簡單，就是用來提取 http://news.sohu.com 上面的新聞連接，格式類似這樣：http://news.sohu.com/20090518/n264012864.shtml 所以寫了一小段的正則表達式來匹配他：Set String links = LinkParser.extracLinks(
url, new LinkFilter() {
//提取以 http://news.sohu.com 開頭的鏈接 public boolean accept(String url) {
if (url.matches("http://news.sohu.com/[//d]+/n[//d]+.shtml")) {
return true;
} else {
return false;
}
}
}); 還有一個核心類就是用來解析搜狐新聞的類，該類用于重網頁中提取出新聞，然后將新聞添加到數據庫中。代碼中還用到了一個NewsBean 這段代碼就不貼出來了，很簡單的POJO 代碼。核心代碼都在下面。 SohuNews.javaimport com.sohu.bean.NewsBean;
import com.sohu.db.ConnectionManager;
import java.util.ArrayList;
import java.util.List;
import java.util.logging.Level;
import java.util.logging.Logger;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.beans.StringBean;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.Div;
import org.htmlparser.tags.HeadingTag;
import org.htmlparser.tags.Span;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;import java.sql.PreparedStatement;
import java.sql.SQLException;/**
* 用于對搜狐網站上的新聞進行抓取
* @author guanminglin guanminglin@gmail.com
*/
public class SohuNews { private Parser parser = null; //用于分析網頁的分析器。
private List newsList = new ArrayList(); //暫存新聞的List；
private NewsBean bean = new NewsBean();
private ConnectionManager manager = null; //數據庫連接管理器。
private PreparedStatement pstmt = null; public SohuNews() {
} /**
* 獲得一條完整的新聞。
* @param newsBean
* @return
*/
public List getNewsList(final NewsBean newsBean) {
List list = new ArrayList();
String newstitle = newsBean.getNewsTitle();
String newsauthor = newsBean.getNewsAuthor();
String newscontent = newsBean.getNewsContent();
String newsdate = newsBean.getNewsDate();
list.add(newstitle);
list.add(newsauthor);
list.add(newscontent);
list.add(newsdate);
return list;
} /**
* 設置新聞對象，讓新聞對象里有新聞數據
* @param newsTitle 新聞標題
* @param newsauthor 新聞作者
* @param newsContent 新聞內容
* @param newsDate 新聞日期
* @param url 新聞鏈接
*/
public void setNews(String newsTitle, String newsauthor, String newsContent, String newsDate, String url) {
bean.setNewsTitle(newsTitle);
bean.setNewsAuthor(newsauthor);
bean.setNewsContent(newsContent);
bean.setNewsDate(newsDate);
bean.setNewsURL(url);
} /**
* 該方法用于將新聞添加到數據庫中。
*/
protected void newsToDataBase() { //建立一個線程用來執行將新聞插入到數據庫中。
Thread thread = new Thread(new Runnable() { public void run() {
boolean sucess = saveToDB(bean);
if (sucess != false) {
System.out.println("插入數據失敗");
}
}
});
thread.start();
} /**
* 將新聞插入到數據庫中
* @param bean
* @return
*/
public boolean saveToDB(NewsBean bean) {
boolean flag = true;
String sql = "insert into news(newstitle,newsauthor,newscontent,newsurl,newsdate) values(?,?,?,?,?)";
manager = new ConnectionManager();
String titleLength = bean.getNewsTitle();
if (titleLength.length() 60) { //標題太長的新聞不要。
return flag;
}
try {
pstmt = manager.getConnection().prepareStatement(sql);
pstmt.setString(1, bean.getNewsTitle());
pstmt.setString(2, bean.getNewsAuthor());
pstmt.setString(3, bean.getNewsContent());
pstmt.setString(4, bean.getNewsURL());
pstmt.setString(5, bean.getNewsDate());
flag = pstmt.execute(); } catch (SQLException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
} finally {
try {
pstmt.close();
manager.close();
} catch (SQLException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
} }
return flag;
} /**
* 獲得新聞的標題
* @param titleFilter
* @param parser
* @return
*/
private String getTitle(NodeFilter titleFilter, Parser parser) {
String titleName = "";
try { NodeList titleNodeList = (NodeList) parser.parse(titleFilter);
for (int i = 0; i titleNodeList.size(); i++) {
HeadingTag title = (HeadingTag) titleNodeList.elementAt(i);
titleName = title.getStringText();
} } catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
return titleName;
} /**
* 獲得新聞的責任編輯，也就是作者。
* @param newsauthorFilter
* @param parser
* @return
*/
private String getNewsAuthor(NodeFilter newsauthorFilter, Parser parser) {
String newsAuthor = "";
try {
NodeList authorList = (NodeList) parser.parse(newsauthorFilter);
for (int i = 0; i authorList.size(); i++) {
Div authorSpan = (Div) authorList.elementAt(i);
newsAuthor = authorSpan.getStringText();
} } catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
return newsAuthor; } /*
* 獲得新聞的日期
*/
private String getNewsDate(NodeFilter dateFilter, Parser parser) {
String newsDate = null;
try {
NodeList dateList = (NodeList) parser.parse(dateFilter);
for (int i = 0; i dateList.size(); i++) {
Span dateTag = (Span) dateList.elementAt(i);
newsDate = dateTag.getStringText();
}
} catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
} return newsDate;
} /**
* 獲取新聞的內容
* @param newsContentFilter
* @param parser
* @return content 新聞內容
*/
private String getNewsContent(NodeFilter newsContentFilter, Parser parser) {
String content = null;
StringBuilder builder = new StringBuilder();
try {
NodeList newsContentList = (NodeList) parser.parse(newsContentFilter);
for (int i = 0; i newsContentList.size(); i++) {
Div newsContenTag = (Div) newsContentList.elementAt(i);
builder = builder.append(newsContenTag.getStringText());
}
content = builder.toString(); //轉換為String 類型。
if (content != null) {
parser.reset();
parser = Parser.createParser(content, "gb2312");
StringBean sb = new StringBean();
sb.setCollapse(true);
parser.visitAllNodesWith(sb);
content = sb.getStrings();
// String s = "/";} else{ document.getElementById('TurnAD444').innerHTML = /"/";} } showTurnAD444(intTurnAD444); }catch(e){}";

content = content.replaceAll("http:///".*[a-z].*//}", "");

content = content.replace("[我來說兩句]", "");
} else {
System.out.println("沒有得到新聞內容！");
} } catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
} return content;
} /**
* 根據提供的URL，獲取此URL對應網頁所有的純文本信息，次方法得到的信息不是很純，
*常常會得到我們不想要的數據。不過如果你只是想得到某個URL 里的所有純文本信息，該方法還是很好用的。
* @param url 提供的URL鏈接
* @return RL對應網頁的純文本信息
* @throws ParserException
* @deprecated 該方法被 getNewsContent()替代。
*/
@Deprecated
public String getText(String url) throws ParserException {
StringBean sb = new StringBean(); //設置不需要得到頁面所包含的鏈接信息
sb.setLinks(false);
//設置將不間斷空格由正規空格所替代
sb.setReplaceNonBreakingSpaces(true);
//設置將一序列空格由一個單一空格所代替
sb.setCollapse(true);
//傳入要解析的URL
sb.setURL(url); //返回解析后的網頁純文本信息
return sb.getStrings();
} /**
* 對新聞URL進行解析提取新聞，同時將新聞插入到數據庫中。
* @param content
*/
public void parser(String url) {
try {
parser = new Parser(url);
NodeFilter titleFilter = new TagNameFilter("h1");
NodeFilter contentFilter = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("id", "sohu_content"));
NodeFilter newsdateFilter = new AndFilter(new TagNameFilter("span"), new HasAttributeFilter("class", "c"));
NodeFilter newsauthorFilter = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("class", "editUsr"));
String newsTitle = getTitle(titleFilter, parser);
parser.reset(); //記得每次用完parser后，要重置一次parser。要不然就得不到我們想要的內容了。
String newsContent = getNewsContent(contentFilter, parser);
System.out.println(newsContent); //輸出新聞的內容，查看是否符合要求
parser.reset();
String newsDate = getNewsDate(newsdateFilter, parser);
parser.reset();
String newsauthor = getNewsAuthor(newsauthorFilter, parser); //先設置新聞對象，讓新聞對象里有新聞內容。
setNews(newsTitle, newsauthor, newsContent, newsDate, url);
//將新聞添加到數據中。
this.newsToDataBase();

} catch (ParserException ex) {
Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex);
}
} //單個文件測試網頁
public static void main(String[] args) {
SohuNews news = new SohuNews();
news.parser("http://news.sohu.com/20090518/n264012864.shtml");
}
}
存放新聞的數據庫用的是MySql 建表語句如下：（其實不用數據庫也可以的，在SohuNews類中注釋掉那行紅色的代碼就可以了，所有得到的新聞都會在后臺打印的。）CREATE DATABASE IF NOT EXISTS sohunews;
USE sohunews;--
-- Definition of table `news`
--DROP TABLE IF EXISTS `news`;
CREATE TABLE `news` (
`newsid` int(11) NOT NULL auto_increment,
`newstitle` varchar(60) NOT NULL,
`newsauthor` varchar(20) NOT NULL,
`newscontent` text NOT NULL,
`newsurl` char(130) NOT NULL,
`newsdate` varchar(24) NOT NULL,
PRIMARY KEY (`newsid`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8; 以上的代碼寫的很粗糙，項目中使用到了HtmlParser工具包，如果需要可以到http://sourceforge.net/projects/htmlparser 網站上下載。如果有需要這個爬蟲項目源碼的朋友可以留下E-mail 索取。這篇文章只是一篇拋磚引玉的文章，希望懂爬蟲的你能夠給點意見，大家交流交流！！html教程

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時間聯系我們修改或刪除，多謝。

上一篇：html中關于a標簽href和onclick的用法區別以及優先級

下一篇：關于HTML中Meta標簽的那些事