资源简介
爬虫搜索,简单的搜索引擎,java爬虫,搜索引擎例子,爬虫demo,java实现互联网内容抓取,搜索引擎大揭密.java爬虫程序。web搜索。爬虫程序。sigar搜索,定时搜索互联网内容信息。
代码片段和文件信息
package crawler.search;
import java.net.URLEncoder;
import java.util.concurrent.linkedBlockingQueue;
import org.apache.log4j.Logger;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
* @see 搜索关键字
* @author Herman.Xiong
* @date 2014年6月19日 13:54:13
*/
public class SearchBKeyword {
public static Logger log4j = Logger.getLogger(““);
/** 连接网站,模拟浏览器登陆,避免网站识别为手机进入 */
private static final String USERAGENT = “Mozilla/5.0 (Windows NT 6.1; rv:22.0) Gecko/20100101 Firefox/22.0“;
/**设置超时时间 */
private static final int timeout=50000;
private static String url=“http://www.baidu.com/s?wd=%E4%B8%8A%E6%B5%B7&pn=10&oq=%E4%B8%8A%E6%B5%B7&tn=baidu&ie=utf-8&usm=8“;
public static linkedBlockingQueue keywordList = new linkedBlockingQueue();
public static int pagesize;
public static boolean process=false;
String keyword=““;
public void search() {
process=true;
int count=keywordList.size();
for (int i = 0; i < count; i++) {
keyword=keywordList.poll();
for (int y = 0; y < pagesize; y++) {
try {
url=“http://www.baidu.com/s?wd=“+URLEncoder.encode(keyword “UTF-8“)+“&pn=“+(y*10)+“&oq=“+URLEncoder.encode(keyword “UTF-8“)+“&tn=baidu&ie=utf-8&usm=8“;
Document doc=Jsoup.connect(url).userAgent(USERAGENT).timeout(timeout).get();
Elements elements=doc.select(“#content_left .c-container“);
if(elements!=null&&elements.size()>0){
for (Element e:elements) {
log4j.info(new String(“地址:“+e.select(“h3.t a“).attr(“abs:href“)));
log4j.info(new String(“标题:“+e.select(“h3.t a“).text()));
}
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
process=false;
}
public static void main(String[] args) {
new SearchBKeyword().search();
}
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2014-06-06 13:53 demo\
文件 3295 2014-06-03 09:53 demo\.classpath
文件 380 2014-06-03 09:52 demo\.project
目录 0 2014-06-06 13:43 demo\.settings\
文件 88 2014-06-06 13:43 demo\.settings\org.eclipse.core.resources.prefs
目录 0 2014-06-19 09:38 demo\bin\
目录 0 2014-06-19 09:38 demo\bin\crawler\
目录 0 2014-06-19 09:38 demo\bin\crawler\search\
文件 3325 2014-06-19 13:54 demo\bin\crawler\search\SearchBKeyword.class
目录 0 2014-06-19 09:38 demo\bin\crawler\timerManager\
文件 552 2014-06-19 13:54 demo\bin\crawler\timerManager\SearchTask.class
文件 573 2014-06-19 13:55 demo\bin\crawler\timerManager\TimerManager.class
文件 694 2014-06-06 13:38 demo\bin\log4j.properties
目录 0 2014-06-19 09:38 demo\bin\main\
文件 771 2014-06-19 13:55 demo\bin\main\ap
目录 0 2014-06-19 09:38 demo\bin\system\
文件 2977 2014-06-19 13:42 demo\bin\system\LoadConfig.class
目录 0 2014-06-19 09:38 demo\bin\util\
文件 16098 2014-06-19 13:56 demo\bin\util\FileUtils.class
文件 6603 2014-06-19 13:52 demo\bin\util\xm
目录 0 2014-06-06 13:56 demo\config\
文件 183 2014-06-06 14:13 demo\config\demoConfig.xm
文件 7194 2014-06-19 13:52 demo\demo.log
目录 0 2014-06-03 09:53 demo\lib\
文件 1746 2014-05-27 11:39 demo\lib\.sigar_shellrc
文件 164143 2014-05-27 11:39 demo\lib\commons-beanutils.jar
文件 73098 2014-05-27 11:39 demo\lib\commons-codec-1.5.jar
文件 575389 2014-05-27 11:39 demo\lib\commons-collections-3.2.1.jar
文件 148783 2014-05-27 11:39 demo\lib\commons-digester-2.0.jar
文件 305001 2014-05-27 11:39 demo\lib\commons-httpclient-3.1.jar
文件 185140 2014-05-27 11:39 demo\lib\commons-io-2.4.jar
............此处省略66个文件信息
相关资源
- WebMagicJava爬虫实现,实现数据爬取,
- 自己动手写网络爬虫_
- Java爬虫。。。。。
- 解密搜索引擎技术实战Lucene&Java精华版
- 高德地图poi数据爬取-java
- java爬虫项目实战教学视频
- 一个java新闻标题爬虫
- java实现的爬虫,亲自编写,测试通过
- java爬虫完整代码
- 网络爬虫的设计与实现+毕业论文
- 京东苏宁爬虫java源码
- 用Java写的一个简单爬虫,爬取京东图
- java DHT爬虫 重构并加了注释 修复了一
- java DHT爬虫 重构并加了完整的注释 修
- java DHT爬虫
- Java爬虫获取网页表格数据保存到MyS
- Crawler爬虫软件,轻松获取网络资源
- Java爬虫完整.zip
- java实现爬取指定网站的数据源码
- 搜索引擎jsp 页面
- 主题网络爬虫
- java简单网络爬虫
- 爬虫jsp获取网页源码
- java 实现简单爬虫,爬取图片
- JAVA技术实现的搜索引擎(含源码)
- 很简易的java爬虫 可以爬取携程的航班
- 一个简单的java网络蜘蛛程序,非常适
- Java 爬虫图片
- java利用多线程爬虫查询快递100物流信
- 百度贴吧java爬虫
评论
共有 条评论