资源简介
基于http的Java爬虫爬取百度新闻

代码片段和文件信息
package com.lxq.biz;
import java.util.HashMap;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import com.lxq.common.WebContent;
public class BaiduNews {
private WebContent wc=new WebContent();
public HashMap getBaiDu(final String s){
final HashMap hm = new HashMap();
final StringBuffer sb = new StringBuffer();
String html = ““;
try {
html = wc.getOneHtml(s);
} catch (final Exception e) {
e.getMessage();
}
String title = wc.outTag(wc.gettitle(html));
final Pattern pa = Pattern.compile(
“
final Matcher ma = pa.matcher(html);
while (ma.find()) {
sb.append(ma.group());
}
String temp = sb.toString();
temp =wc.cleanContent(temp);
hm.put(“ti
hm.put(“p“ wc.outTag(temp));
return hm;
}
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2016-04-14 15:03 DataSnake\
文件 295 2016-04-14 15:03 DataSnake\.classpath
文件 385 2016-04-14 15:03 DataSnake\.project
目录 0 2016-04-14 15:03 DataSnake\.settings\
文件 598 2016-04-14 15:03 DataSnake\.settings\org.eclipse.jdt.core.prefs
目录 0 2016-04-14 15:04 DataSnake\bin\
目录 0 2016-04-14 15:04 DataSnake\bin\com\
目录 0 2016-04-15 14:37 DataSnake\bin\com\lxq\
目录 0 2016-04-14 15:35 DataSnake\bin\com\lxq\biz\
文件 1997 2016-04-15 14:27 DataSnake\bin\com\lxq\biz\BaiduNews.class
目录 0 2016-04-15 14:58 DataSnake\bin\com\lxq\common\
文件 5155 2016-04-15 14:45 DataSnake\bin\com\lxq\common\WebContent.class
文件 307 2016-04-15 15:19 DataSnake\bin\com\lxq\common\Word.class
目录 0 2016-04-15 14:37 DataSnake\bin\com\lxq\configure\
文件 326 2016-04-15 14:37 DataSnake\bin\com\lxq\configure\Para.class
文件 508 2016-04-15 14:45 DataSnake\bin\com\lxq\configure\Regex.class
目录 0 2016-04-14 15:12 DataSnake\bin\com\lxq\test\
文件 1791 2016-04-15 14:57 DataSnake\bin\com\lxq\test\Test.class
目录 0 2016-04-14 15:04 DataSnake\src\
目录 0 2016-04-14 15:04 DataSnake\src\com\
目录 0 2016-04-15 14:37 DataSnake\src\com\lxq\
目录 0 2016-04-14 15:35 DataSnake\src\com\lxq\biz\
文件 892 2016-04-15 14:27 DataSnake\src\com\lxq\biz\BaiduNews.java
目录 0 2016-04-15 14:58 DataSnake\src\com\lxq\common\
文件 4606 2016-04-15 14:45 DataSnake\src\com\lxq\common\WebContent.java
文件 78 2016-04-15 15:19 DataSnake\src\com\lxq\common\Word.java
目录 0 2016-04-15 14:34 DataSnake\src\com\lxq\configure\
文件 117 2016-04-15 14:37 DataSnake\src\com\lxq\configure\Para.java
文件 348 2016-04-15 14:45 DataSnake\src\com\lxq\configure\Regex.java
目录 0 2016-04-14 15:12 DataSnake\src\com\lxq\test\
文件 827 2016-04-15 14:57 DataSnake\src\com\lxq\test\Test.java
............此处省略0个文件信息
相关资源
- java代码编写将excel数据导入到mysql数据
- Java写的cmm词法分析器源代码及javacc学
- JAVA JSP公司财务管理系统 源代码 论文
- JSP+MYSQL旅行社管理信息系统
- 推荐算法的JAVA实现
- 基于Java的酒店管理系统源码(毕业设
- java-图片识别 图片比较
- android毕业设计
- java23种设计模式+23个实例demo
- java Socket发送/接受报文
- JAVA828436
- java界面美化 提供多套皮肤直接使用
- 在线聊天系统(java代码)
- 基于Java的图书管理系统807185
- java中实现将页面数据导入Excel中
- java 企业销售管理系统
- java做的聊天系统(包括正规课程设计
- Java编写的qq聊天室
- 商店商品管理系统 JAVA写的 有界面
- JAVA开发聊天室程序
- 在linux系统下用java执行系统命令实例
- java期末考试试题两套(答案) 选择(
- JAVA3D编程示例(建模、交互)
- Java 文件加密传输
- java做的房产管理系统
- 基于jsp的bbs论坛 非常详细
- [免费]java实现有障碍物的贪吃蛇游戏
- java Servlet投票实例
- 操作系统作业 (pv,作业管理,等5个
- 基于C/S架构考试系统(Java)
评论
共有 条评论