资源简介
基于http的Java爬虫爬取百度新闻
代码片段和文件信息
package com.lxq.biz;
import java.util.HashMap;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import com.lxq.common.WebContent;
public class BaiduNews {
private WebContent wc=new WebContent();
public HashMap getBaiDu(final String s){
final HashMap hm = new HashMap();
final StringBuffer sb = new StringBuffer();
String html = ““;
try {
html = wc.getOneHtml(s);
} catch (final Exception e) {
e.getMessage();
}
String title = wc.outTag(wc.gettitle(html));
final Pattern pa = Pattern.compile(
“
final Matcher ma = pa.matcher(html);
while (ma.find()) {
sb.append(ma.group());
}
String temp = sb.toString();
temp =wc.cleanContent(temp);
hm.put(“ti
hm.put(“p“ wc.outTag(temp));
return hm;
}
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2016-04-14 15:03 DataSnake\
文件 295 2016-04-14 15:03 DataSnake\.classpath
文件 385 2016-04-14 15:03 DataSnake\.project
目录 0 2016-04-14 15:03 DataSnake\.settings\
文件 598 2016-04-14 15:03 DataSnake\.settings\org.eclipse.jdt.core.prefs
目录 0 2016-04-14 15:04 DataSnake\bin\
目录 0 2016-04-14 15:04 DataSnake\bin\com\
目录 0 2016-04-15 14:37 DataSnake\bin\com\lxq\
目录 0 2016-04-14 15:35 DataSnake\bin\com\lxq\biz\
文件 1997 2016-04-15 14:27 DataSnake\bin\com\lxq\biz\BaiduNews.class
目录 0 2016-04-15 14:58 DataSnake\bin\com\lxq\common\
文件 5155 2016-04-15 14:45 DataSnake\bin\com\lxq\common\WebContent.class
文件 307 2016-04-15 15:19 DataSnake\bin\com\lxq\common\Word.class
目录 0 2016-04-15 14:37 DataSnake\bin\com\lxq\configure\
文件 326 2016-04-15 14:37 DataSnake\bin\com\lxq\configure\Para.class
文件 508 2016-04-15 14:45 DataSnake\bin\com\lxq\configure\Regex.class
目录 0 2016-04-14 15:12 DataSnake\bin\com\lxq\test\
文件 1791 2016-04-15 14:57 DataSnake\bin\com\lxq\test\Test.class
目录 0 2016-04-14 15:04 DataSnake\src\
目录 0 2016-04-14 15:04 DataSnake\src\com\
目录 0 2016-04-15 14:37 DataSnake\src\com\lxq\
目录 0 2016-04-14 15:35 DataSnake\src\com\lxq\biz\
文件 892 2016-04-15 14:27 DataSnake\src\com\lxq\biz\BaiduNews.java
目录 0 2016-04-15 14:58 DataSnake\src\com\lxq\common\
文件 4606 2016-04-15 14:45 DataSnake\src\com\lxq\common\WebContent.java
文件 78 2016-04-15 15:19 DataSnake\src\com\lxq\common\Word.java
目录 0 2016-04-15 14:34 DataSnake\src\com\lxq\configure\
文件 117 2016-04-15 14:37 DataSnake\src\com\lxq\configure\Para.java
文件 348 2016-04-15 14:45 DataSnake\src\com\lxq\configure\Regex.java
目录 0 2016-04-14 15:12 DataSnake\src\com\lxq\test\
文件 827 2016-04-15 14:57 DataSnake\src\com\lxq\test\Test.java
............此处省略0个文件信息
相关资源
- 简易C语言编译器Java源代码
- java实现输入任意两个日期输出月份数
- 李刚《疯狂Java讲义》第三版光盘内容
- java联想功能文本输入
- 基于P2P的局域网即时通信系统java
- 李兴华java源码笔记
- 算法设计、分析与实现从入门到精通
- 学生管理系统(大学java课设)
- Java酒店管理系统毕业设计含文档.ra
- Java坦克大战源码+论文,可用毕业设计
- Java编程实现暴力破解WIFI密码的方法分
- MongoDB的Java访问实现包括文件存储
- 《软件设计模式(Java版)》每章习题
- 山东大学软件学院 Java 历年试卷整理
- 用java开发的扑克牌游戏程序源代码
- java编写外挂
- cognos自定义JAVA权限认证
- java毕业设计学生综合测评系统
- JAVA实现ICTCLAS2015分词
- 微信公众平台完整源码JAVA
- java 课程设计机票管理系统Java+MySQL
- javaSwing宿舍管理系统
- 使用纯JAVA绘图带声音的经典坦克大战
- 大华摄像头Demo
- 1.2WindowBuilder使用代码
- Java英文笔试题答案汇总
- 教师评价系统 java+SQL 毕业设计
- 航空订票管理系统 JAVA+MySQL
- Java jdbc三层及事务转账案例
- 最新数据验证工具类java,身份证、手
评论
共有 条评论