淘宝天猫商品详情爬取

大小: 4KB

文件类型: .zip

金币: 2

下载: 0 次

发布日期: 2021-05-09
语言: 其他
标签: 爬取

高速下载

资源简介

爬取商品详情。

资源截图

小图大图

代码片段和文件信息

import org.apache.commons.lang3.StringUtils;
import net.sf.json.JSONobject;


import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.URLEncoder;
import java.util.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * Created with Chenquan.
 * Description: 淘宝抓包
 * Date: 2018-12-13
 * Time: 15:12
 */
public class test {

    public static void main（String[] args） {
        int i = 0;
        //填写商品详情网站
        String substring = getParamByUrl（“https://detail.tmall.com/item.htm?spm=a1z10.10550-b.193.11.43c44d028KCTcr&id=580863947060““id“）;
            getAll（substring）;
    }

    public static void getAll（String item_id ） {
        try {
            Thread.sleep（2000）;//一个休息5s，太快会被禁
        } catch （InterruptedException e） {
            e.printStackTrace（）;
        }
        System.out.println（“开始时间：“ + new Date（））;
        Date dateStart = new Date（）;
        Document doc = null;
        String id = ““;
        try {
            String url = “https://item.taobao.com/item.htm?id=“+item_id;
            id = getParamByUrl（url “id“）;
            doc = Jsoup.connect（url）.ignoreContentType（true）.get（）;
        } catch （IOException e） {
            e.printStackTrace（）;
        }
        if （doc.baseUri（）.contains（“tmall“）） {
            System.out.println（“商品名称：“+ doc.select（“h1[data-spm=\“1000983\“]“）.text（））;
        }else {
            System.out.println（“商品名称：“ + doc.select（“h3[class=\“tb-main-title\“]“）.text（））;
        }
        Elements imgSrcElement = doc.select（“#J_UlThumb > li“）;
        for （Element element : imgSrcElement） {
            String imgSrc = ““;
            if （element.baseUri（）.contains（“tmall“））{
                imgSrc = element.getElementsByTag（“img“）.attr（“src“）;
            }else{
                imgSrc = element.getElementsByTag（“img“）.attr（“data-src“）;
            }
          //  imgSrc = imgSrc.replaceFirst（“//img.alicdn.com/imgextra/“ ““）;
            //imgSrc = imgSrc.substring（0 imgSrc.length（） - 10）;
            imgSrc = imgSrc.replaceAll（“_60x60q90.jpg“““）; //处理掉不必要的数据
            //String substring = imgSrc.substring（imgSrc.indexOf（“_60“） + 3 imgSrc.lastIndexOf（“.jpg“））;
            //String substring = imgSrc.substring（0 imgSrc.lastIndexOf（“.jpg“））;
            //String substring = imgSrc.substring（0 imgSrc.lastIndexOf（“jpg_“））;
            System.out.println（“主图url：“ + imgSrc）;

        }


        // 规格参数
        Elements selectRules = doc.select（“.J_TSaleProp“）;
        List> liHashMap = new ArrayList<>（）;
        for （Element ulElement : selectRules） {
            String ul = ulElement.getElementsByTag（“ul“）.attr（“data-property“）;
            System.out.println（“ul：“ + ul）;

            List liString = new ArrayList<>（）;

            for （Element liElement : ulElement.getElem

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件       14383  2019-01-14 09:19  淘宝天猫商品详情获取\test.java
     文件        2254  2019-01-11 14:48  淘宝天猫商品详情获取\test1.java
     目录           0  2019-01-14 09:20  淘宝天猫商品详情获取\

上一篇：粒子群算法pso研究现状综述
下一篇：商用密码产品认证-密码模块分级检测申请材料编写说明 - 初稿文档.docx

共有条评论

淘宝天猫商品详情爬取

资源简介

资源截图

代码片段和文件信息

评论

相关资源