资源简介
包括知识介绍和最全面的网络爬虫源代码,分开讲解,更加细致入微,非常好的代码,很实用
代码片段和文件信息
package com.cn.simepu.auto.crawling.config;
import java.io.File;
import java.io.FileInputStream;
import java.util.Properties;
public class SystemConfig {
private int poolSize = 0; // 线程池最大数
private int threadSize = 0; // 线程池最大线程数
private int uriLength = 0;//URI链接的最大长度
private long sleepTime = 0L; // 一次循环休眠时间
private String siteSource = null; // 配置文件来源
private String[] indexOfs = null;// 要截取的特殊字符
private String regFileType = null;// 要保存的文件格式
private String siteFilePath = null; // 配置文件路径
private String saveRootPath = null; // 保存的根目录
private static boolean isWhileCrawl=false; //是否循环抓取
private static SystemConfig systemConfig = null; // 当前系统配置实例
protected static final String CONFIG_PREFIX = “config_“; // 配置文件属性前缀
protected static final String configPath = “autocrawling_system.properties“; // 配置文件名字
private String dbUserName = null;
private String dbUserPass = null;
private String dbDriver = null;
private String dbConnection = null;
public synchronized static SystemConfig init() {
if (systemConfig == null) {
systemConfig = new SystemConfig();
systemConfig.loadSystemConfig();
}
return systemConfig;
}
protected void loadSystemConfig() {
try {
File file = new File(configPath);
// URL resource =
// super.getClass().getClassLoader().getResource(configPath);
// if (resource != null) {
// Properties patternFile = new Properties();
// patternFile.load(resource.openStream());
// loadSystemConfigParmater(patternFile);
// }else{
// return;
// }
if (file != null) {
Properties patternFile = new Properties();
patternFile.load(new FileInputStream(file));
loadSystemConfigParmater(patternFile);
} else {
return;
}
} catch (Exception ex) {}
}
protected void loadSystemConfigParmater(Properties patternFile) {
try {
String isWhileCrawlType=patternFile.getProperty(“config_isWhileCrawl“);
isWhileCrawl = isWhileCrawlType.equals(“true“) ? true: false;
this.dbDriver = patternFile.getProperty(CONFIG_PREFIX + “dbDriver“);
this.dbUserName = patternFile.getProperty(CONFIG_PREFIX + “dbUserName“);
this.dbUserPass = patternFile.getProperty(CONFIG_PREFIX + “dbUserPass“);
this.siteSource = patternFile.getProperty(CONFIG_PREFIX + “siteSource“);
this.regFileType = patternFile.getProperty(CONFIG_PREFIX + “regFileType“);
this.saveRootPath = patternFile.getProperty(CONFIG_PREFIX + “saveRootPath“);
this.dbConnection = patternFile.getProperty(CONFIG_PREFIX + “dbConnection“);
this.siteFilePath = patternFile.getProperty(CONFIG_PREFIX + “siteFilePath“);
this.indexOfs = patternFile.getProperty(CONFIG_PREFIX + “indexOfs“).split(““);
this.poolSize = Integer.parseInt(patternFile.getProperty(CONFIG_PREFIX + “poolSize“));
this.sleepTime = Long.parseLong(patternFile.getProperty(CONFIG_PREFIX + “sleepTime“));
this.uriLength = Integer.parseInt(patternFile.getProperty(CONFI
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 344 2010-07-01 10:46 AutoCrawling\.classpath
文件 365 2010-07-01 10:46 AutoCrawling\.fatjar
文件 388 2010-06-30 18:28 AutoCrawling\.project
文件 923 2010-08-02 15:38 AutoCrawling\autocrawling_example.properties
文件 1426 2010-07-30 09:32 AutoCrawling\autocrawling_system.properties
文件 582656 2010-08-02 15:33 AutoCrawling\crawl.log
文件 363 2010-08-02 15:29 AutoCrawling\bin\autocrawling_http_parser.properties
文件 1305 2010-05-27 10:16 AutoCrawling\bin\log4j.xm
文件 6109 2010-08-02 15:00 AutoCrawling\bin\com\cn\simepu\auto\crawling\config\SystemConfig.class
文件 3631 2010-08-02 14:47 AutoCrawling\bin\com\cn\simepu\auto\crawling\config\ThreadPoolConfig.class
文件 2070 2010-08-02 14:47 AutoCrawling\bin\com\cn\simepu\auto\crawling\db\DBHelper.class
文件 1334 2010-08-02 14:47 AutoCrawling\bin\com\cn\simepu\auto\crawling\main\MainClass.class
文件 9340 2010-08-02 14:47 AutoCrawling\bin\com\cn\simepu\auto\crawling\main\ProgramEntry.class
文件 3801 2010-08-02 14:47 AutoCrawling\bin\com\cn\simepu\auto\crawling\thread\MyThread.class
文件 7564 2010-08-02 14:47 AutoCrawling\bin\com\cn\simepu\auto\crawling\thread\MyThreadPool.class
文件 3531 2010-08-02 14:47 AutoCrawling\bin\com\cn\simepu\auto\crawling\thread\MyThreadPoolControl.class
文件 3300 2010-08-02 15:27 AutoCrawling\bin\com\cn\simepu\auto\crawling\util\BloomFilter.class
文件 6796 2010-08-02 14:47 AutoCrawling\bin\com\cn\simepu\auto\crawling\util\FileManager.class
文件 3109 2010-08-02 14:47 AutoCrawling\bin\com\cn\simepu\auto\crawling\util\Tools.class
文件 3951 2010-08-02 14:47 AutoCrawling\bin\com\cn\simepu\auto\crawling\util\UrlExtractor.class
文件 5626 2010-06-30 17:42 AutoCrawling\lib\jocky-ant.jar
文件 515600 2010-06-30 18:03 AutoCrawling\lib\jocky.jar
文件 352291 2010-06-30 17:32 AutoCrawling\lib\log4j-1.2.9.jar
文件 583286 2010-06-30 17:32 AutoCrawling\lib\sqljdbc.jar
文件 363 2010-08-02 15:29 AutoCrawling\src\autocrawling_http_parser.properties
文件 1305 2010-05-27 10:16 AutoCrawling\src\log4j.xm
文件 5922 2010-08-02 15:00 AutoCrawling\src\com\cn\simepu\auto\crawling\config\SystemConfig.java
文件 2604 2010-05-27 09:54 AutoCrawling\src\com\cn\simepu\auto\crawling\config\ThreadPoolConfig.java
文件 1518 2010-05-20 20:29 AutoCrawling\src\com\cn\simepu\auto\crawling\db\DBHelper.java
文件 420 2010-07-01 09:45 AutoCrawling\src\com\cn\simepu\auto\crawling\main\MainClass.java
............此处省略35个文件信息
- 上一篇:USB-PPI编程电缆驱动
- 下一篇:j2me飞行射击demo
相关资源
- 基于Hadoop平台实现一个分布式网络爬
- Delphi网页爬取.rar
- 网络爬虫的初次体验
- linux环境下的网络爬虫
- 网络爬虫从入门到精通嗷嗷
- 精通Scrapy网络爬虫(完整版)274198
- .Net网络爬虫
- 自己动手写网络爬虫完整版 源码
- 《精通Scrapy网络爬虫》刘硕 pdf
- 精通Scrapy网络爬虫完整版
- 自己动手写网络爬虫PDF+源码.zip
- 网络爬虫入门到精通PDF
- 自己动手写网络爬虫pdf+源代码
- 网络爬虫爬取网页链接
- 基于.net的网络爬虫
- 网络爬虫,多功能,有界面显示,代
- 基于Web的网络爬虫的设计与实现.pdf
- 网络爬虫实现对北京租房信息的爬取
- 网络爬虫的设计与实现+毕业论文.do
- 基于Python网络爬虫的设计与实现
- 网络爬虫原理
- linux c实现网络爬虫
评论
共有 条评论