资源简介
一个JAVA开发的简单网络爬虫 可以实现对指定站点新闻内容的获取 程序很简单 大家一起学习
代码片段和文件信息
package com.sohu;
import com.sohu.bean.NewsBean;
import com.sohu.db.ConnectionManager;
import java.util.ArrayList;
import java.util.List;
import java.util.logging.Level;
import java.util.logging.Logger;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.beans.StringBean;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.Div;
import org.htmlparser.tags.HeadingTag;
import org.htmlparser.tags.Span;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import java.sql.PreparedStatement;
import java.sql.SQLException;
/**
* 用于对搜狐网站上的新闻进行抓取
* @author guanminglin
*/
public class SohuNews {
p
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 2448 2009-05-20 11:39 build\web\WEB-INF\classes\com\sohu\db\ConnectionManager.class
文件 779 2009-05-20 19:51 build\web\WEB-INF\classes\com\sohu\crawler\Crawler$1.class
文件 2003 2009-05-20 19:51 build\web\WEB-INF\classes\com\sohu\crawler\Crawler.class
文件 969 2009-05-20 19:51 build\web\WEB-INF\classes\com\sohu\servlet\GetNewsServlet$1.class
文件 2304 2009-05-20 19:51 build\web\WEB-INF\classes\com\sohu\servlet\GetNewsServlet.class
文件 1679 2009-05-20 11:39 build\web\WEB-INF\classes\com\sohu\crawler\li
文件 203 2009-05-20 11:39 build\web\WEB-INF\classes\com\sohu\crawler\li
文件 819 2009-05-20 19:51 build\web\WEB-INF\classes\com\sohu\crawler\li
文件 796 2009-05-20 19:51 build\web\WEB-INF\classes\com\sohu\crawler\li
文件 3485 2009-05-20 19:51 build\web\WEB-INF\classes\com\sohu\crawler\li
文件 1330 2009-05-20 12:18 build\web\WEB-INF\classes\com\sohu\bean\NewsBean.class
文件 453 2009-05-20 11:39 build\web\WEB-INF\classes\com\sohu\crawler\NewsToDB.class
文件 1300 2009-05-20 11:39 build\web\WEB-INF\classes\com\sohu\crawler\Queue.class
文件 885 2009-05-20 19:59 build\web\WEB-INF\classes\com\sohu\SohuNews$1.class
文件 7990 2009-05-20 19:59 build\web\WEB-INF\classes\com\sohu\SohuNews.class
文件 46725 2007-03-16 17:16 src\lib\commons-codec-1.3.jar
文件 305001 2009-05-17 15:16 src\lib\commons-httpclient-3.1.jar
文件 38015 2007-03-16 17:16 src\lib\commons-logging-1.0.4.jar
文件 70029 2009-05-20 11:28 build\web\WEB-INF\lib\htmllexer.jar
文件 70029 2009-05-17 15:16 src\lib\htmllexer.jar
文件 288106 2009-05-20 11:28 build\web\WEB-INF\lib\htmlparser.jar
文件 288106 2009-05-17 15:16 src\lib\htmlparser.jar
....... 703265 2009-05-19 09:17 build\web\WEB-INF\lib\mysql-connector-java-5.1.6-bin.jar
文件 1855 2009-05-18 14:55 src\java\com\sohu\db\ConnectionManager.java
文件 1957 2009-05-20 11:05 src\java\com\sohu\crawler\Crawler.java
文件 2980 2009-05-20 11:06 src\java\com\sohu\servlet\GetNewsServlet.java
文件 1209 2009-05-18 14:55 src\java\com\sohu\crawler\li
文件 231 2009-05-18 14:55 src\java\com\sohu\crawler\li
文件 3784 2009-05-20 09:49 src\java\com\sohu\crawler\li
文件 1568 2009-05-18 14:55 src\java\com\sohu\bean\NewsBean.java
............此处省略59个文件信息
相关资源
- java 文件上传
- java_NIO_入门.pdf (入门级讲解)
- Java JNI简单实现
- java入门基础使用总结(数组、函数、
- android切图( drawable-hdpi drawable-xhdpi
- java 抓取网页缩略图 源码
- Java编程思维.pdf
- java贪吃蛇 小游戏源码
- 微信小程序获取用户openid源码含后端
- javaweb项目_1
- java spring面试宝典.pdf(共29页)
- effective java中文版 pdf
- java实现的语音对话机器人
- Java自定义注解入门Demo
- treeView
- struts和hibernate注册
- java 统计图表
- java 查找(GeoHash 算法)
- android 可放缩的Mosaic
- JAVA CMPP3.0协议实现
- JAVA JNI 样例,总结了JNI的书写方法。
- Java DVD管理器 基础
- java 图片的模糊处理
- java 跨域上传文件Jquery
- RxJava(请求网络数据+loading效果)
- Retrofit2-Rxjava2联网的封装
- java 反射入门级(reflect)
- 腾讯信鸽推送(java版)
- lsb位图隐写java实现
- Activity之间数据传递-学生信息采集
评论
共有 条评论