资源简介
WebMagic(Java)爬虫实现,实现数据爬取,并导出到excel文件
代码片段和文件信息
package com.chao.crawler;
import us.codecraft.webmagic.Spider;
public class Client {
public static void main(String[] args) {
String domain = “http://www.babysittersnow.com“;
//总共355页数据每页22个子页面,为了防止数据丢失每读取一页数据,对数据进行保存一次
for(int i=1;i<356;i++){
String startUrl = “http://www.babysittersnow.com.au/babysitters/search?display=grid&order=lastlogin&page=“+1;
Spider.create(new PageProcesser(domain startUrl)).pipeline(new URLPipeline()).thread(5).run();
PoiHelper.getHelper().saveExcel();
}
//String startUrl1 = “http://www.babysittersnow.com.au/babysitters/search“;
}
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2016-03-16 15:24 crawler3\
文件 2282 2016-03-16 15:23 crawler3\.classpath
文件 384 2016-03-16 15:23 crawler3\.project
目录 0 2016-03-16 15:23 crawler3\.settings\
文件 598 2016-03-16 15:23 crawler3\.settings\org.eclipse.jdt.core.prefs
目录 0 2016-03-16 15:23 crawler3\bin\
目录 0 2016-03-16 15:23 crawler3\bin\com\
目录 0 2016-03-16 15:23 crawler3\bin\com\chao\
目录 0 2016-03-16 15:23 crawler3\bin\com\chao\crawler\
文件 1275 2016-03-16 15:23 crawler3\bin\com\chao\crawler\Client.class
文件 2368 2016-03-16 15:23 crawler3\bin\com\chao\crawler\DownloadHelper.class
文件 2805 2016-03-16 15:23 crawler3\bin\com\chao\crawler\PageProcesser.class
文件 3278 2016-03-16 15:23 crawler3\bin\com\chao\crawler\PageProcesser1.class
文件 3155 2016-03-16 15:23 crawler3\bin\com\chao\crawler\PageProcesserProduct.class
文件 1355 2016-03-16 15:23 crawler3\bin\com\chao\crawler\PathHelper.class
文件 3255 2016-03-16 15:23 crawler3\bin\com\chao\crawler\PoiHelper.class
文件 1554 2016-03-16 15:23 crawler3\bin\com\chao\crawler\Product.class
文件 1229 2016-03-16 15:23 crawler3\bin\com\chao\crawler\ProductPipeline.class
文件 1951 2016-03-16 15:23 crawler3\bin\com\chao\crawler\URLHelper.class
文件 1266 2016-03-16 15:23 crawler3\bin\com\chao\crawler\URLPipeline.class
目录 0 2016-03-16 15:23 crawler3\bin\com\chao\test\
文件 2142 2016-03-16 15:23 crawler3\bin\com\chao\test\GithubRepoPageProcessor.class
目录 0 2016-03-16 15:23 crawler3\bin\com\chao\util\
文件 1058 2016-03-16 15:23 crawler3\bin\com\chao\util\ListUtil.class
文件 2522 2016-03-16 15:23 crawler3\bin\com\chao\util\pageProcesserTest1.class
目录 0 2016-03-16 15:23 crawler3\lib\
文件 576338 2016-03-16 15:23 crawler3\lib\assertj-core-1.5.0.jar
文件 232771 2016-03-16 15:23 crawler3\lib\commons-codec-1.6.jar
文件 575389 2016-03-16 15:23 crawler3\lib\commons-collections-3.2.1.jar
文件 87776 2016-03-16 15:23 crawler3\lib\commons-io-1.3.2.jar
文件 284220 2016-03-16 15:23 crawler3\lib\commons-lang-2.6.jar
............此处省略44个文件信息
相关资源
- 基于http的Java爬虫爬取百度新闻
- 微信公众号爬取数据
- 基于JAVA技术爬虫爬网站图片设计与实
- 用java实现爬虫抓取网页中的表格数据
- 基于强智科技教务系统学生成绩爬虫
- java网络爬虫搜索引擎
- jsp搜索引擎完整源码自带网络爬虫功
- SQL注入漏洞检测原型工具
- java抓取数据包及网络基础
- java地址转换经纬度
- 用java实现爬虫抓取网页中的表格数据
- java实现的主题爬虫
- 基于java的文本搜索引擎的设计与实现
- 爬虫工具,用于获取平行语料
- 知乎爬虫最新版
- 网络爬虫 PDF
- Java+爬虫+爬取图片+完整案例+源码
- 基于java实现网络爬虫
- htmlunit 及其 依赖包
- 12306Java爬虫
- 网络爬虫jar包全
- Java爬虫汽车之家图片
- Java Web+爬虫+lucene 大学新闻网
- java爬取携程酒店评价信息
- android文字识别并翻译
- Java网络爬虫源码
- java 爬虫教学
- JAVA爬豆瓣电影数据文件流.zip
- java爬虫爬取当当网图书信息
- htmlunit-2.15-bin.zip
评论
共有 条评论