• 大小: 892.9 KB
    文件类型: .rar
    金币: 1
    下载: 0 次
    发布日期: 2024-10-13
  • 语言: Java
  • 标签: 搜索引擎  Java  含源码  

资源简介

压缩包里有个word文档 我看了看 如果对搜索引擎还处于0接处的朋友们 这个文档对你们帮助应该挺大;
PS:代码,文档,跟本人没有关系,我也门外汉,大家一起分享一起研究;
分高了点,但是你回复下分就回来了,我就赚点哈;

资源截图

代码片段和文件信息

package news;

/**
 * 

title: 新闻搜索引擎


 * 

Description: 毕业设计


 * 

Copyright: Copyright (c) 2003


 * 

Company: 


 * @author 计算机99630 沈晨
 * @version 1.0
 */

import java.util.Iterator;
import java.util.Vector;

import com.heaton.bot.HTMLPage;
import com.heaton.bot.HTTP;
import com.heaton.bot.link;

public class HTMLParse {
  HTTP _http = null;
  public HTMLParse(HTTP http) {
    _http = http;
  }

  /**
   * 对Web页面进行解析后建立索引
   */
  public void start() {
    try {
      HTMLPage _page = new HTMLPage(_http);
      _page.open(_http.getURL() null);
      Vector _links = _page.getlinks();
      Index _index = new Index();
      Iterator _it = _links.iterator();
      int n = 0;
      while (_it.hasNext()) {
        link _link = (link) _it.next();
        String _herf = input(_link.getHREF().trim());
        String _title = input(_link.getPrompt().trim());
        _index.AddNews(_herf _title);
        n++;
      }
      System.out.println(“共扫描到“ + n + “条新闻“);
      _index.close();
    }
    catch (Exception ex) {
      System.out.println(ex);
    }
  }
  /**
   * 解决java中的中文问题
   * @param str 输入的中文
   * @return 经过解码的中文
   */
  public static String input(String str) {
    String temp = null;
    if (str != null) {
      try {
        temp = new String(str.getBytes(“ISO8859_1“));
      }
      catch (Exception e) {
      }
    }
    return temp;
  }

}

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件      37922  2002-07-11 17:14  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\bot.jar

     文件      11586  2003-06-09 23:40  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\News.htm

     文件     307200  2008-03-02 13:47  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine.doc

     文件      37922  2002-07-11 17:14  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\bot.jar

     文件      11586  2003-06-09 23:40  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\News.htm

     文件       3732  2003-06-27 19:44  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\NewsServer.jpx

     文件       1945  2003-06-27 19:44  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\NewsServer.jpx.local

     文件       1664  2003-06-11 17:30  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\NewsServer.jpx.local~

     文件          0  2003-06-11 17:30  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\NewsServer.jpx~

     文件        442  2003-06-11 20:08  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\results.html

     文件        227  2003-06-11 17:30  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\Servlet.library

     文件        439  2003-06-23 00:42  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\WEB-INF\web.xml

     文件        941  2003-06-23 00:34  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\WEB-INF\web.xml~1~

     文件     136498  2003-06-11 22:50  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\WEB-INF\lib\lucene-1.2.jar

     文件     138824  2003-06-11 22:50  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\WEB-INF\lib\lucene_cn.jar

     文件       4425  2003-06-11 22:50  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\WEB-INF\classes\newsserver\Results.class

     文件       3203  2003-06-11 17:48  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\Tomcat\work\NewsServer\NewsSearcher_jsp.class

     文件       2344  2003-06-11 17:48  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\Tomcat\work\NewsServer\NewsSearcher_jsp.java

     文件        399  2003-06-23 00:34  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\Tomcat\webapps\jb--default.xml

     文件        409  2003-06-23 00:34  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\Tomcat\webapps\jb-NewsServer.xml

     文件       3692  2003-06-11 20:52  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\src\newsserver\Results.java

     文件        179  2003-06-23 00:42  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\defaultroot\WEB-INF\web.xml

     文件        691  2003-06-23 00:34  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\defaultroot\WEB-INF\web.xml~1~

     文件       3242  2003-06-11 22:50  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\classes\package cache\newsserver.dep2

     文件       4425  2003-06-11 22:50  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\classes\newsserver\Results.class

     文件        669  2003-06-11 17:35  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\bak\NewsSearcher.jsp~1~

     文件        979  2003-06-11 17:43  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\bak\NewsSearcher.jsp~2~

     文件        484  2003-06-11 17:43  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\bak\NewsSearcher.jsp~3~

     文件        481  2003-06-11 17:46  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\bak\NewsSearcher.jsp~4~

     文件        488  2003-06-11 17:47  搜索引擎的研究与实现Java含源码\搜索引擎的研究与实现(Java)(含源码)\SearchEngine\NewsServer\bak\NewsSearcher.jsp~5~

............此处省略259个文件信息

评论

共有 条评论