资源简介
爬取商品详情。
代码片段和文件信息
import org.apache.commons.lang3.StringUtils;
import net.sf.json.JSONobject;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
import java.net.URLEncoder;
import java.util.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
/**
* Created with Chenquan.
* Description: 淘宝抓包
* Date: 2018-12-13
* Time: 15:12
*/
public class test {
public static void main(String[] args) {
int i = 0;
//填写商品详情网站
String substring = getParamByUrl(“https://detail.tmall.com/item.htm?spm=a1z10.10550-b.193.11.43c44d028KCTcr&id=580863947060““id“);
getAll(substring);
}
public static void getAll(String item_id ) {
try {
Thread.sleep(2000);//一个休息5s,太快会被禁
} catch (InterruptedException e) {
e.printStackTrace();
}
System.out.println(“开始时间:“ + new Date());
Date dateStart = new Date();
Document doc = null;
String id = ““;
try {
String url = “https://item.taobao.com/item.htm?id=“+item_id;
id = getParamByUrl(url “id“);
doc = Jsoup.connect(url).ignoreContentType(true).get();
} catch (IOException e) {
e.printStackTrace();
}
if (doc.baseUri().contains(“tmall“)) {
System.out.println(“商品名称:“+ doc.select(“h1[data-spm=\“1000983\“]“).text());
}else {
System.out.println(“商品名称:“ + doc.select(“h3[class=\“tb-main-title\“]“).text());
}
Elements imgSrcElement = doc.select(“#J_UlThumb > li“);
for (Element element : imgSrcElement) {
String imgSrc = ““;
if (element.baseUri().contains(“tmall“)){
imgSrc = element.getElementsByTag(“img“).attr(“src“);
}else{
imgSrc = element.getElementsByTag(“img“).attr(“data-src“);
}
// imgSrc = imgSrc.replaceFirst(“//img.alicdn.com/imgextra/“ ““);
//imgSrc = imgSrc.substring(0 imgSrc.length() - 10);
imgSrc = imgSrc.replaceAll(“_60x60q90.jpg“““); //处理掉不必要的数据
//String substring = imgSrc.substring(imgSrc.indexOf(“_60“) + 3 imgSrc.lastIndexOf(“.jpg“));
//String substring = imgSrc.substring(0 imgSrc.lastIndexOf(“.jpg“));
//String substring = imgSrc.substring(0 imgSrc.lastIndexOf(“jpg_“));
System.out.println(“主图url:“ + imgSrc);
}
// 规格参数
Elements selectRules = doc.select(“.J_TSaleProp“);
List> liHashMap = new ArrayList<>();
for (Element ulElement : selectRules) {
String ul = ulElement.getElementsByTag(“ul“).attr(“data-property“);
System.out.println(“ul:“ + ul);
List liString = new ArrayList<>();
for (Element liElement : ulElement.getElem
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 14383 2019-01-14 09:19 淘宝天猫商品详情获取\test.java
文件 2254 2019-01-11 14:48 淘宝天猫商品详情获取\test1.java
目录 0 2019-01-14 09:20 淘宝天猫商品详情获取\
相关资源
- 百度poi爬取插件
- 小米应用商店App爬取及
- 我的kettle爬虫爬取小说内容
- 航班号全集/爬取航班信息必备
- 爬取喜马拉雅音频.zip
- 新浪微博爬虫功能包括爬取用户信息
- 使用scrapy爬取全国所有城市的天气信
- 易语言爬取美女图片
- 易语言:爬取(采集)美女图片至本
- 易语言爬取网络图片(妹子图美图录
- 微信公众号爬虫 (支持全自动化批量
- scrapy爬虫爬取csdn博客新闻列表保存到
- Python爬取新冠肺炎疫情实时数据
- perl脚本爬虫程序,支持爬取北大未名
- scrapy爬取cnblog博客园
- 51搜学网数据爬取
- 京东爬虫,可抓取京东商品信息和评
- Scrapy爬虫--爬取食品抽检结果
- 中国全部31个省市区的经纬度信息数据
- 全国公园分布shp文件
评论
共有 条评论