资源简介

本系统主要是对在淘宝网、京东网和亚马逊网三大购物网站中的相同产品的信息进行抽取。本系统的重点是实现使用HTML页面爬取功能获取产品数据,对获取到的网页数据进行抽取分析,最后以Web页面形式呈现出来。本系统的难点是使用HTML页面爬取功能获取产品数据,对获取到的网页数据进行抽取分析,结构化抽取的数据和信息。 使用到的技术:JSP技术,网络爬虫技术,HTML解析技术Jsoup等。 本系统是使用JAVA编写的B/S模式系统,没有用到数据库,开发工具用的是IntelliJ IDEA 13,你也可以使用其它工具(像MyEclipse等),但需要手动将类复制到你创建的项目中。内部包含源码和系统文档。其中代码量适中,逻辑也不算太复杂。基本功能已经实现,更复杂的功能需要你自己突破吧,嘿嘿!

资源截图

代码片段和文件信息

/*
 * To change this template choose Tools | Templates
 * and open the template in the editor.
 */
package infoData;

/**
 *
 * @author mazhenhao
 */
public class ItemInfo implements Comparable{
    public String itemUrl;
    public String itemIntro;
    public String itemImage;
    public String itemPrice;
    public String jdid=null;

    @Override
    public int compareTo(ItemInfo o) {
        String str1= this.itemPrice.trim();
        String str2 = null;
        if (o!=null) {
            str2 = o.itemPrice.trim();
        }else return 0;
        int len1 = 0;
        int len2 = 0;
        if ((str1!=null&&str2!=null)|(str1!=““&&str2!=““)) {
            len1 = str1.length();
            System.out.println(str2+““);
            len2 = str2.length();
        }
        if (len1 > len2) {
            return 1;
        } else if (len2 > len1) {
            return 0;
        } else {
            int str1larger = 1;
            for (int i = 0; i < len1; i++) {
                if (str1.charAt(len1 - 1 - i) < str2.charAt(len1 - 1 - i)) {
                    str1larger = 0;
                } else {
                    str1larger = 1;
                }
            }
            return str1larger;
        }
    }
}

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件    1338368  2014-06-16 13:48  1001110730_张水荣_在线产品即时比价系统.doc

     文件          5  2014-05-10 10:41  OPPCS\.idea\.name

     文件        623  2014-05-10 10:48  OPPCS\.idea\artifacts\OPPCS_war_exploded.xml

     文件        734  2014-05-10 10:42  OPPCS\.idea\compiler.xml

     文件        115  2014-05-10 10:41  OPPCS\.idea\copyright\profiles_settings.xml

     文件        287  2014-05-20 09:34  OPPCS\.idea\encodings.xml

     文件        290  2014-05-10 10:48  OPPCS\.idea\libraries\lib.xml

     文件        525  2014-05-10 10:53  OPPCS\.idea\misc.xml

     文件        261  2014-05-10 10:42  OPPCS\.idea\modules.xml

     文件        143  2014-05-10 10:41  OPPCS\.idea\scopes\scope_settings.xml

     文件       8919  2014-05-11 09:26  OPPCS\.idea\uiDesigner.xml

     文件        176  2014-05-10 10:42  OPPCS\.idea\vcs.xml

     文件      85161  2014-06-03 12:16  OPPCS\.idea\workspace.xml

     文件       1239  2014-05-20 15:02  OPPCS\OPPCS.iml

     文件      39183  2014-05-21 07:42  OPPCS\out\artifacts\OPPCS_war_exploded\css\bdindex_min_2ba8ff57.css

     文件       5332  2014-05-21 07:42  OPPCS\out\artifacts\OPPCS_war_exploded\css\bdsupercube_b515faf4.css

     文件      42580  2014-05-21 07:42  OPPCS\out\artifacts\OPPCS_war_exploded\css\detailPage.css

     文件      58283  2014-05-21 07:42  OPPCS\out\artifacts\OPPCS_war_exploded\css\header.css

     文件        116  2014-05-21 07:42  OPPCS\out\artifacts\OPPCS_war_exploded\css\index.css

     文件      54092  2014-05-21 07:42  OPPCS\out\artifacts\OPPCS_war_exploded\css\jdbase.css

     文件       6069  2014-05-21 07:42  OPPCS\out\artifacts\OPPCS_war_exploded\css\jdpop_compare.css

     文件      53445  2014-05-21 07:42  OPPCS\out\artifacts\OPPCS_war_exploded\css\jdpsearch20130409.css

     文件      65655  2014-05-21 07:42  OPPCS\out\artifacts\OPPCS_war_exploded\css\main.css

     文件      57446  2014-05-25 11:19  OPPCS\out\artifacts\OPPCS_war_exploded\css\page.css

     文件       1744  2014-05-21 07:42  OPPCS\out\artifacts\OPPCS_war_exploded\index.html

     文件        608  2014-05-21 07:42  OPPCS\out\artifacts\OPPCS_war_exploded\js\include.js

     文件     266882  2014-05-21 07:42  OPPCS\out\artifacts\OPPCS_war_exploded\js\jquery-1.8.2.js

     文件       1380  2014-05-29 08:46  OPPCS\out\artifacts\OPPCS_war_exploded\js\search.js

     文件         43  2014-05-15 10:19  OPPCS\out\artifacts\OPPCS_war_exploded\js\sellerFilter.js

     文件      12680  2014-06-02 22:00  OPPCS\out\artifacts\OPPCS_war_exploded\search.jsp

............此处省略152个文件信息

评论

共有 条评论