• 大小: 1.4MB
    文件类型: .rar
    金币: 1
    下载: 0 次
    发布日期: 2023-09-21
  • 语言: 其他
  • 标签: 网络爬虫  

资源简介

包括知识介绍和最全面的网络爬虫源代码,分开讲解,更加细致入微,非常好的代码,很实用

资源截图

代码片段和文件信息

package com.cn.simepu.auto.crawling.config;

import java.io.File;
import java.io.FileInputStream;
import java.util.Properties;

public class SystemConfig {

private int poolSize = 0; // 线程池最大数
private int threadSize = 0; // 线程池最大线程数
private int uriLength = 0;//URI链接的最大长度
private long sleepTime = 0L; // 一次循环休眠时间

private String siteSource = null; // 配置文件来源

private String[] indexOfs = null;// 要截取的特殊字符

private String regFileType = null;// 要保存的文件格式
private String siteFilePath = null; // 配置文件路径
private String saveRootPath = null; // 保存的根目录

private static boolean isWhileCrawl=false; //是否循环抓取

private static SystemConfig systemConfig = null; // 当前系统配置实例

protected static final String CONFIG_PREFIX = “config_“; // 配置文件属性前缀
protected static final String configPath = “autocrawling_system.properties“; // 配置文件名字

private String dbUserName = null;
private String dbUserPass = null;
private String dbDriver = null;
private String dbConnection = null;

public synchronized static SystemConfig init() {
if (systemConfig == null) {
systemConfig = new SystemConfig();
systemConfig.loadSystemConfig();
}
return systemConfig;
}

protected void loadSystemConfig() {
try {
File file = new File(configPath);
// URL resource =
// super.getClass().getClassLoader().getResource(configPath);
// if (resource != null) {
// Properties patternFile = new Properties();
// patternFile.load(resource.openStream());
// loadSystemConfigParmater(patternFile);
// }else{
// return;
// }

if (file != null) {
Properties patternFile = new Properties();
patternFile.load(new FileInputStream(file));
loadSystemConfigParmater(patternFile);
} else {
return;
}
} catch (Exception ex) {}
}

protected void loadSystemConfigParmater(Properties patternFile) {
try {
String isWhileCrawlType=patternFile.getProperty(“config_isWhileCrawl“);
isWhileCrawl = isWhileCrawlType.equals(“true“) ? true: false;
this.dbDriver = patternFile.getProperty(CONFIG_PREFIX + “dbDriver“);
this.dbUserName = patternFile.getProperty(CONFIG_PREFIX + “dbUserName“);
this.dbUserPass = patternFile.getProperty(CONFIG_PREFIX + “dbUserPass“);
this.siteSource = patternFile.getProperty(CONFIG_PREFIX + “siteSource“);
this.regFileType = patternFile.getProperty(CONFIG_PREFIX + “regFileType“);
this.saveRootPath = patternFile.getProperty(CONFIG_PREFIX + “saveRootPath“);
this.dbConnection = patternFile.getProperty(CONFIG_PREFIX + “dbConnection“);
this.siteFilePath = patternFile.getProperty(CONFIG_PREFIX + “siteFilePath“);
this.indexOfs = patternFile.getProperty(CONFIG_PREFIX + “indexOfs“).split(““);
this.poolSize = Integer.parseInt(patternFile.getProperty(CONFIG_PREFIX + “poolSize“));
this.sleepTime = Long.parseLong(patternFile.getProperty(CONFIG_PREFIX + “sleepTime“));
this.uriLength = Integer.parseInt(patternFile.getProperty(CONFI

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件        344  2010-07-01 10:46  AutoCrawling\.classpath

     文件        365  2010-07-01 10:46  AutoCrawling\.fatjar

     文件        388  2010-06-30 18:28  AutoCrawling\.project

     文件        923  2010-08-02 15:38  AutoCrawling\autocrawling_example.properties

     文件       1426  2010-07-30 09:32  AutoCrawling\autocrawling_system.properties

     文件     582656  2010-08-02 15:33  AutoCrawling\crawl.log

     文件        363  2010-08-02 15:29  AutoCrawling\bin\autocrawling_http_parser.properties

     文件       1305  2010-05-27 10:16  AutoCrawling\bin\log4j.xml

     文件       6109  2010-08-02 15:00  AutoCrawling\bin\com\cn\simepu\auto\crawling\config\SystemConfig.class

     文件       3631  2010-08-02 14:47  AutoCrawling\bin\com\cn\simepu\auto\crawling\config\ThreadPoolConfig.class

     文件       2070  2010-08-02 14:47  AutoCrawling\bin\com\cn\simepu\auto\crawling\db\DBHelper.class

     文件       1334  2010-08-02 14:47  AutoCrawling\bin\com\cn\simepu\auto\crawling\main\MainClass.class

     文件       9340  2010-08-02 14:47  AutoCrawling\bin\com\cn\simepu\auto\crawling\main\ProgramEntry.class

     文件       3801  2010-08-02 14:47  AutoCrawling\bin\com\cn\simepu\auto\crawling\thread\MyThread.class

     文件       7564  2010-08-02 14:47  AutoCrawling\bin\com\cn\simepu\auto\crawling\thread\MyThreadPool.class

     文件       3531  2010-08-02 14:47  AutoCrawling\bin\com\cn\simepu\auto\crawling\thread\MyThreadPoolControl.class

     文件       3300  2010-08-02 15:27  AutoCrawling\bin\com\cn\simepu\auto\crawling\util\BloomFilter.class

     文件       6796  2010-08-02 14:47  AutoCrawling\bin\com\cn\simepu\auto\crawling\util\FileManager.class

     文件       3109  2010-08-02 14:47  AutoCrawling\bin\com\cn\simepu\auto\crawling\util\Tools.class

     文件       3951  2010-08-02 14:47  AutoCrawling\bin\com\cn\simepu\auto\crawling\util\UrlExtractor.class

     文件       5626  2010-06-30 17:42  AutoCrawling\lib\jocky-ant.jar

     文件     515600  2010-06-30 18:03  AutoCrawling\lib\jocky.jar

     文件     352291  2010-06-30 17:32  AutoCrawling\lib\log4j-1.2.9.jar

     文件     583286  2010-06-30 17:32  AutoCrawling\lib\sqljdbc.jar

     文件        363  2010-08-02 15:29  AutoCrawling\src\autocrawling_http_parser.properties

     文件       1305  2010-05-27 10:16  AutoCrawling\src\log4j.xml

     文件       5922  2010-08-02 15:00  AutoCrawling\src\com\cn\simepu\auto\crawling\config\SystemConfig.java

     文件       2604  2010-05-27 09:54  AutoCrawling\src\com\cn\simepu\auto\crawling\config\ThreadPoolConfig.java

     文件       1518  2010-05-20 20:29  AutoCrawling\src\com\cn\simepu\auto\crawling\db\DBHelper.java

     文件        420  2010-07-01 09:45  AutoCrawling\src\com\cn\simepu\auto\crawling\main\MainClass.java

............此处省略35个文件信息

评论

共有 条评论