• 大小: 14.49MB
    文件类型: .zip
    金币: 2
    下载: 1 次
    发布日期: 2023-06-20
  • 语言: Java
  • 标签: 爬虫  抓取数据  

资源简介

WebMagic(Java)爬虫实现,实现数据爬取,并导出到excel文件

资源截图

代码片段和文件信息

package com.chao.crawler;
import us.codecraft.webmagic.Spider;

public class Client {
public static void main(String[] args) {
String domain = “http://www.babysittersnow.com“;
//总共355页数据每页22个子页面,为了防止数据丢失每读取一页数据,对数据进行保存一次
for(int i=1;i<356;i++){
String startUrl = “http://www.babysittersnow.com.au/babysitters/search?display=grid&order=lastlogin&page=“+1;
Spider.create(new PageProcesser(domain startUrl)).pipeline(new URLPipeline()).thread(5).run();
PoiHelper.getHelper().saveExcel();
}
//String startUrl1 = “http://www.babysittersnow.com.au/babysitters/search“;

}

}

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2016-03-16 15:24  crawler3\
     文件        2282  2016-03-16 15:23  crawler3\.classpath
     文件         384  2016-03-16 15:23  crawler3\.project
     目录           0  2016-03-16 15:23  crawler3\.settings\
     文件         598  2016-03-16 15:23  crawler3\.settings\org.eclipse.jdt.core.prefs
     目录           0  2016-03-16 15:23  crawler3\bin\
     目录           0  2016-03-16 15:23  crawler3\bin\com\
     目录           0  2016-03-16 15:23  crawler3\bin\com\chao\
     目录           0  2016-03-16 15:23  crawler3\bin\com\chao\crawler\
     文件        1275  2016-03-16 15:23  crawler3\bin\com\chao\crawler\Client.class
     文件        2368  2016-03-16 15:23  crawler3\bin\com\chao\crawler\DownloadHelper.class
     文件        2805  2016-03-16 15:23  crawler3\bin\com\chao\crawler\PageProcesser.class
     文件        3278  2016-03-16 15:23  crawler3\bin\com\chao\crawler\PageProcesser1.class
     文件        3155  2016-03-16 15:23  crawler3\bin\com\chao\crawler\PageProcesserProduct.class
     文件        1355  2016-03-16 15:23  crawler3\bin\com\chao\crawler\PathHelper.class
     文件        3255  2016-03-16 15:23  crawler3\bin\com\chao\crawler\PoiHelper.class
     文件        1554  2016-03-16 15:23  crawler3\bin\com\chao\crawler\Product.class
     文件        1229  2016-03-16 15:23  crawler3\bin\com\chao\crawler\ProductPipeline.class
     文件        1951  2016-03-16 15:23  crawler3\bin\com\chao\crawler\URLHelper.class
     文件        1266  2016-03-16 15:23  crawler3\bin\com\chao\crawler\URLPipeline.class
     目录           0  2016-03-16 15:23  crawler3\bin\com\chao\test\
     文件        2142  2016-03-16 15:23  crawler3\bin\com\chao\test\GithubRepoPageProcessor.class
     目录           0  2016-03-16 15:23  crawler3\bin\com\chao\util\
     文件        1058  2016-03-16 15:23  crawler3\bin\com\chao\util\ListUtil.class
     文件        2522  2016-03-16 15:23  crawler3\bin\com\chao\util\pageProcesserTest1.class
     目录           0  2016-03-16 15:23  crawler3\lib\
     文件      576338  2016-03-16 15:23  crawler3\lib\assertj-core-1.5.0.jar
     文件      232771  2016-03-16 15:23  crawler3\lib\commons-codec-1.6.jar
     文件      575389  2016-03-16 15:23  crawler3\lib\commons-collections-3.2.1.jar
     文件       87776  2016-03-16 15:23  crawler3\lib\commons-io-1.3.2.jar
     文件      284220  2016-03-16 15:23  crawler3\lib\commons-lang-2.6.jar
............此处省略44个文件信息

评论

共有 条评论