• 大小: 14KB
    文件类型: .zip
    金币: 2
    下载: 0 次
    发布日期: 2024-02-08
  • 语言: Java
  • 标签: http  Java  爬虫  

资源简介

基于http的Java爬虫爬取百度新闻

资源截图

代码片段和文件信息

package com.lxq.biz;

import java.util.HashMap;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import com.lxq.common.WebContent;

public class BaiduNews {
private WebContent wc=new WebContent();
public HashMap getBaiDu(final String s){
final HashMap hm = new HashMap();
final StringBuffer sb = new StringBuffer();
String html = ““;
try {
html = wc.getOneHtml(s);
} catch (final Exception e) {
e.getMessage();
}
String title = wc.outTag(wc.gettitle(html));
final Pattern pa = Pattern.compile(
(.*?)

“ Pattern.DOTALL);
final Matcher ma = pa.matcher(html);
while (ma.find()) {
sb.append(ma.group());
}
String temp = sb.toString();

temp =wc.cleanContent(temp);
hm.put(“title“ title);
hm.put(“p“ wc.outTag(temp));
return hm;
}
}

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2016-04-14 15:03  DataSnake\
     文件         295  2016-04-14 15:03  DataSnake\.classpath
     文件         385  2016-04-14 15:03  DataSnake\.project
     目录           0  2016-04-14 15:03  DataSnake\.settings\
     文件         598  2016-04-14 15:03  DataSnake\.settings\org.eclipse.jdt.core.prefs
     目录           0  2016-04-14 15:04  DataSnake\bin\
     目录           0  2016-04-14 15:04  DataSnake\bin\com\
     目录           0  2016-04-15 14:37  DataSnake\bin\com\lxq\
     目录           0  2016-04-14 15:35  DataSnake\bin\com\lxq\biz\
     文件        1997  2016-04-15 14:27  DataSnake\bin\com\lxq\biz\BaiduNews.class
     目录           0  2016-04-15 14:58  DataSnake\bin\com\lxq\common\
     文件        5155  2016-04-15 14:45  DataSnake\bin\com\lxq\common\WebContent.class
     文件         307  2016-04-15 15:19  DataSnake\bin\com\lxq\common\Word.class
     目录           0  2016-04-15 14:37  DataSnake\bin\com\lxq\configure\
     文件         326  2016-04-15 14:37  DataSnake\bin\com\lxq\configure\Para.class
     文件         508  2016-04-15 14:45  DataSnake\bin\com\lxq\configure\Regex.class
     目录           0  2016-04-14 15:12  DataSnake\bin\com\lxq\test\
     文件        1791  2016-04-15 14:57  DataSnake\bin\com\lxq\test\Test.class
     目录           0  2016-04-14 15:04  DataSnake\src\
     目录           0  2016-04-14 15:04  DataSnake\src\com\
     目录           0  2016-04-15 14:37  DataSnake\src\com\lxq\
     目录           0  2016-04-14 15:35  DataSnake\src\com\lxq\biz\
     文件         892  2016-04-15 14:27  DataSnake\src\com\lxq\biz\BaiduNews.java
     目录           0  2016-04-15 14:58  DataSnake\src\com\lxq\common\
     文件        4606  2016-04-15 14:45  DataSnake\src\com\lxq\common\WebContent.java
     文件          78  2016-04-15 15:19  DataSnake\src\com\lxq\common\Word.java
     目录           0  2016-04-15 14:34  DataSnake\src\com\lxq\configure\
     文件         117  2016-04-15 14:37  DataSnake\src\com\lxq\configure\Para.java
     文件         348  2016-04-15 14:45  DataSnake\src\com\lxq\configure\Regex.java
     目录           0  2016-04-14 15:12  DataSnake\src\com\lxq\test\
     文件         827  2016-04-15 14:57  DataSnake\src\com\lxq\test\Test.java
............此处省略0个文件信息

评论

共有 条评论