WebMagicJava爬虫实现，实现数据爬取，并导出到excel文件

大小: 14.49MB

文件类型: .zip

金币: 2

下载: 1 次

发布日期: 2023-06-20
语言: Java
标签: 爬虫 抓取数据

高速下载

资源简介

WebMagic（Java）爬虫实现，实现数据爬取，并导出到excel文件

资源截图

小图大图

代码片段和文件信息

package com.chao.crawler;
import us.codecraft.webmagic.Spider;

public class Client {
	public static void main（String[] args） {
		String domain = “http://www.babysittersnow.com“;
		//总共355页数据每页22个子页面，为了防止数据丢失每读取一页数据，对数据进行保存一次
		for（int i=1;i<356;i++）{
			String startUrl = “http://www.babysittersnow.com.au/babysitters/search?display=grid&order=lastlogin&page=“+1;
			Spider.create（new PageProcesser（domain startUrl））.pipeline（new URLPipeline（））.thread（5）.run（）;
			PoiHelper.getHelper（）.saveExcel（）;
		}
		//String startUrl1 = “http://www.babysittersnow.com.au/babysitters/search“;
				
	}

}

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2016-03-16 15:24  crawler3\
     文件        2282  2016-03-16 15:23  crawler3\.classpath
     文件         384  2016-03-16 15:23  crawler3\.project
     目录           0  2016-03-16 15:23  crawler3\.settings\
     文件         598  2016-03-16 15:23  crawler3\.settings\org.eclipse.jdt.core.prefs
     目录           0  2016-03-16 15:23  crawler3\bin\
     目录           0  2016-03-16 15:23  crawler3\bin\com\
     目录           0  2016-03-16 15:23  crawler3\bin\com\chao\
     目录           0  2016-03-16 15:23  crawler3\bin\com\chao\crawler\
     文件        1275  2016-03-16 15:23  crawler3\bin\com\chao\crawler\Client.class
     文件        2368  2016-03-16 15:23  crawler3\bin\com\chao\crawler\DownloadHelper.class
     文件        2805  2016-03-16 15:23  crawler3\bin\com\chao\crawler\PageProcesser.class
     文件        3278  2016-03-16 15:23  crawler3\bin\com\chao\crawler\PageProcesser1.class
     文件        3155  2016-03-16 15:23  crawler3\bin\com\chao\crawler\PageProcesserProduct.class
     文件        1355  2016-03-16 15:23  crawler3\bin\com\chao\crawler\PathHelper.class
     文件        3255  2016-03-16 15:23  crawler3\bin\com\chao\crawler\PoiHelper.class
     文件        1554  2016-03-16 15:23  crawler3\bin\com\chao\crawler\Product.class
     文件        1229  2016-03-16 15:23  crawler3\bin\com\chao\crawler\ProductPipeline.class
     文件        1951  2016-03-16 15:23  crawler3\bin\com\chao\crawler\URLHelper.class
     文件        1266  2016-03-16 15:23  crawler3\bin\com\chao\crawler\URLPipeline.class
     目录           0  2016-03-16 15:23  crawler3\bin\com\chao\test\
     文件        2142  2016-03-16 15:23  crawler3\bin\com\chao\test\GithubRepoPageProcessor.class
     目录           0  2016-03-16 15:23  crawler3\bin\com\chao\util\
     文件        1058  2016-03-16 15:23  crawler3\bin\com\chao\util\ListUtil.class
     文件        2522  2016-03-16 15:23  crawler3\bin\com\chao\util\pageProcesserTest1.class
     目录           0  2016-03-16 15:23  crawler3\lib\
     文件      576338  2016-03-16 15:23  crawler3\lib\assertj-core-1.5.0.jar
     文件      232771  2016-03-16 15:23  crawler3\lib\commons-codec-1.6.jar
     文件      575389  2016-03-16 15:23  crawler3\lib\commons-collections-3.2.1.jar
     文件       87776  2016-03-16 15:23  crawler3\lib\commons-io-1.3.2.jar
     文件      284220  2016-03-16 15:23  crawler3\lib\commons-lang-2.6.jar
............此处省略44个文件信息

上一篇：Android Studio使用Mob来获取手机验证码的源码
下一篇：tools.jar .

共有条评论

WebMagicJava爬虫实现，实现数据爬取，并导出到excel文件

资源简介

资源截图

代码片段和文件信息

评论

相关资源