资源简介

爬虫搜索,简单的搜索引擎,java爬虫,搜索引擎例子,爬虫demo,java实现互联网内容抓取,搜索引擎大揭密.java爬虫程序。web搜索。爬虫程序。sigar搜索,定时搜索互联网内容信息。

资源截图

代码片段和文件信息

package crawler.search;

import java.net.URLEncoder;
import java.util.concurrent.linkedBlockingQueue;
import org.apache.log4j.Logger;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
 * @see 搜索关键字
 * @author Herman.Xiong
 * @date 2014年6月19日 13:54:13
 */
public class SearchBKeyword {

public static Logger log4j = Logger.getLogger(““);

/** 连接网站,模拟浏览器登陆,避免网站识别为手机进入 */
private static final String USERAGENT = “Mozilla/5.0 (Windows NT 6.1; rv:22.0) Gecko/20100101 Firefox/22.0“;

/**设置超时时间 */
private static final int timeout=50000;

private static  String url=“http://www.baidu.com/s?wd=%E4%B8%8A%E6%B5%B7&pn=10&oq=%E4%B8%8A%E6%B5%B7&tn=baidu&ie=utf-8&usm=8“;

public static linkedBlockingQueue keywordList = new linkedBlockingQueue();

public static int pagesize;

public static boolean process=false;

String keyword=““;

public void search() {
process=true;
int count=keywordList.size();
for (int i = 0; i < count; i++) {
keyword=keywordList.poll();
for (int y = 0; y < pagesize; y++) {
try {
url=“http://www.baidu.com/s?wd=“+URLEncoder.encode(keyword “UTF-8“)+“&pn=“+(y*10)+“&oq=“+URLEncoder.encode(keyword “UTF-8“)+“&tn=baidu&ie=utf-8&usm=8“;
Document doc=Jsoup.connect(url).userAgent(USERAGENT).timeout(timeout).get();
Elements elements=doc.select(“#content_left .c-container“);
if(elements!=null&&elements.size()>0){
for (Element e:elements) {
log4j.info(new String(“地址:“+e.select(“h3.t a“).attr(“abs:href“)));
log4j.info(new String(“标题:“+e.select(“h3.t a“).text()));
}
}
} catch (Exception e) {
e.printStackTrace();
}

}
process=false;
}
public static void main(String[] args) {
new SearchBKeyword().search();
}
}

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2014-06-06 13:53  demo\
     文件        3295  2014-06-03 09:53  demo\.classpath
     文件         380  2014-06-03 09:52  demo\.project
     目录           0  2014-06-06 13:43  demo\.settings\
     文件          88  2014-06-06 13:43  demo\.settings\org.eclipse.core.resources.prefs
     目录           0  2014-06-19 09:38  demo\bin\
     目录           0  2014-06-19 09:38  demo\bin\crawler\
     目录           0  2014-06-19 09:38  demo\bin\crawler\search\
     文件        3325  2014-06-19 13:54  demo\bin\crawler\search\SearchBKeyword.class
     目录           0  2014-06-19 09:38  demo\bin\crawler\timerManager\
     文件         552  2014-06-19 13:54  demo\bin\crawler\timerManager\SearchTask.class
     文件         573  2014-06-19 13:55  demo\bin\crawler\timerManager\TimerManager.class
     文件         694  2014-06-06 13:38  demo\bin\log4j.properties
     目录           0  2014-06-19 09:38  demo\bin\main\
     文件         771  2014-06-19 13:55  demo\bin\main\appletClient.class
     目录           0  2014-06-19 09:38  demo\bin\system\
     文件        2977  2014-06-19 13:42  demo\bin\system\LoadConfig.class
     目录           0  2014-06-19 09:38  demo\bin\util\
     文件       16098  2014-06-19 13:56  demo\bin\util\FileUtils.class
     文件        6603  2014-06-19 13:52  demo\bin\util\xmlUtil.class
     目录           0  2014-06-06 13:56  demo\config\
     文件         183  2014-06-06 14:13  demo\config\demoConfig.xml
     文件        7194  2014-06-19 13:52  demo\demo.log
     目录           0  2014-06-03 09:53  demo\lib\
     文件        1746  2014-05-27 11:39  demo\lib\.sigar_shellrc
     文件      164143  2014-05-27 11:39  demo\lib\commons-beanutils.jar
     文件       73098  2014-05-27 11:39  demo\lib\commons-codec-1.5.jar
     文件      575389  2014-05-27 11:39  demo\lib\commons-collections-3.2.1.jar
     文件      148783  2014-05-27 11:39  demo\lib\commons-digester-2.0.jar
     文件      305001  2014-05-27 11:39  demo\lib\commons-httpclient-3.1.jar
     文件      185140  2014-05-27 11:39  demo\lib\commons-io-2.4.jar
............此处省略66个文件信息

评论

共有 条评论