资源简介
由于项目需要,特研究了一段时间关于java爬虫的相关技术,发现一个比较好用的爬虫框架--WebMagic,只需少量代码即可实现一个爬虫,本项目就是基于它的一个简单实现,导入项目即可运行,项目只有两个类,一个用于抓取,一个用于处理抓取到的数据,存入数据库或导出到excel等(只打印到控制台,后续自己发挥),简单吧,代码真的很少
代码片段和文件信息
package pipeline;
import java.util.Map;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;
public class HdPipeline implements Pipeline {
private Logger logger = LoggerFactory.getLogger(HdPipeline.class);
@Override
public void process(ResultItems resultItems Task task) {
//处理抓取到的数据或存入数据库
Map resultMap = (Map) resultItems.get(“resultMap“);
System.out.println(resultMap);
}
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2016-12-14 10:22 spider\
文件 2829 2016-12-14 16:13 spider\.classpath
文件 382 2016-12-14 10:21 spider\.project
目录 0 2016-12-14 10:24 spider\.settings\
文件 103 2016-12-14 12:08 spider\.settings\org.eclipse.core.resources.prefs
文件 598 2016-12-14 10:21 spider\.settings\org.eclipse.jdt.core.prefs
目录 0 2016-12-14 16:13 spider\bin\
目录 0 2016-12-14 16:13 spider\bin\pipeline\
文件 1036 2016-12-23 11:28 spider\bin\pipeline\HdPipeline.class
目录 0 2016-12-23 11:27 spider\bin\processor\
文件 8282 2016-12-23 11:33 spider\bin\processor\HdProcessor.class
目录 0 2016-12-14 16:12 spider\lib\
文件 576338 2016-12-14 10:22 spider\lib\assertj-core-1.5.0.jar
文件 2902942 2016-09-29 10:03 spider\lib\bcprov-jdk15on-1.52.jar
文件 188671 2016-12-14 16:12 spider\lib\commons-beanutils-1.7.0.jar
文件 232771 2016-12-14 10:22 spider\lib\commons-codec-1.6.jar
文件 259600 2016-09-29 10:10 spider\lib\commons-codec-1.7.jar
文件 559366 2016-12-14 16:12 spider\lib\commons-collections-3.1.jar
文件 575389 2016-12-14 10:22 spider\lib\commons-collections-3.2.1.jar
文件 87776 2016-12-14 10:22 spider\lib\commons-io-1.3.2.jar
文件 159509 2016-09-01 10:57 spider\lib\commons-io-2.0.1.jar
文件 279193 2016-12-14 16:12 spider\lib\commons-lang-2.5.jar
文件 284220 2016-12-14 10:22 spider\lib\commons-lang-2.6.jar
文件 315805 2016-12-14 10:22 spider\lib\commons-lang3-3.1.jar
文件 62050 2016-12-14 10:22 spider\lib\commons-logging-1.1.3.jar
文件 61829 2016-08-18 14:33 spider\lib\commons-logging-1.2.jar
文件 45405 2016-12-14 16:12 spider\lib\commons-logging.jar
文件 96221 2016-08-10 16:37 spider\lib\commons-pool-1.5.4.jar
文件 100193 2016-12-14 10:22 spider\lib\commons-pool-1.5.5.jar
文件 77826 2016-12-14 16:12 spider\lib\ezmorph-1.0.3.jar
文件 356654 2016-12-14 10:22 spider\lib\fastjson-1.1.37.jar
............此处省略26个文件信息
相关资源
- java 爬虫教学
- JAVA爬豆瓣电影数据文件流.zip
- java爬虫爬取当当网图书信息
- htmlunit-2.15-bin.zip
- Java实现网路爬虫爬取新闻信息
- java爬虫需要的jar包
- 爬虫搜索简单的搜索引擎java爬虫搜索
- WebMagicJava爬虫实现,实现数据爬取,
- 自己动手写网络爬虫_
- Java爬虫。。。。。
- 高德地图poi数据爬取-java
- java爬虫项目实战教学视频
- 一个java新闻标题爬虫
- java实现的爬虫,亲自编写,测试通过
- java爬虫完整代码
- 网络爬虫的设计与实现+毕业论文
- 京东苏宁爬虫java源码
- 用Java写的一个简单爬虫,爬取京东图
- java DHT爬虫 重构并加了注释 修复了一
- java DHT爬虫 重构并加了完整的注释 修
- java DHT爬虫
- Java爬虫获取网页表格数据保存到MyS
- Crawler爬虫软件,轻松获取网络资源
- Java爬虫完整.zip
- java实现爬取指定网站的数据源码
- 主题网络爬虫
- java简单网络爬虫
- 爬虫jsp获取网页源码
- java 实现简单爬虫,爬取图片
- 很简易的java爬虫 可以爬取携程的航班
评论
共有 条评论