资源简介
本人公司项目中需要汽车图片作为人工智能图片识别的训练,本人应项目组的需要,使用Java爬虫,爬了汽车之家12万张汽车之家汽车图片。
代码片段和文件信息
package carImage;
import java.io.PrintWriter;
import java.io.BufferedReader;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class Car {
public static int imgCount = 0;
public static void main(String[] args){
//getStr(); //获取下载图片所需路径s
long startTime=System.currentTimeMillis();
List urls=readUrls(); //读取txt中路径
HashMap hm = new HashMap();
Car wc = new Car();
for(String url:urls){
List imgUrls=new ArrayList();
imgCount=0;
try {
do{
String urlImage=“http://car.autohome.com.cn/“+url+“#pvareaid=2042264“;
Document doc = null;
try {
doc = Jsoup.connect(urlImage).timeout(100000).get();
} catch (IOException e1) {
e1.printStackTrace();
}
hm = wc.getFromYahoo(urlImage);
String str=hm.get(“title“);
String[] strs = str.split(“ “);
String strz=strs[0];
File carFolder=new File(“D:/img/carphoto/“+strz); //新建一个文件夹
carFolder.mkdirs();
Element body = doc.body();
Elements es=body.select(“img“);
Pattern p = Pattern.compile(“^(http)?(://)?(\\w+(-\\w+)*(\\d+))(\\.(\\w+(-\\w+)*))(\\.(\\w+(-\\w+)*))“
+ “(/(\\w+(-\\w+)*))*(/(\\d+)*)*(/(\\w+(-\\w+)*(\\d+)*))*(/(\\w+(\\_+)(\\d+)*(-\\w+)*))*“
+ “(/(\\w+(\\_+)(\\d+)*))*(\\.(\\w+(-\\w+)*))$“Pattern.CASE_INSENSITIVE );
for (Iterator it = es.iterator(); it.hasNext();) {
Element e = (Element) it.next();
String objUrl= e.attr(“src“);
Matcher m = p.matcher(objUrl);
if(m.find() && !imgUrls.contains(objUrl)){ //是否找到匹配的路径并且该路径在不存在集合中
downPic(objUrlurlurlImage); //下载图片
imgCount++;
imgUrls.add(objUrl); //把路径加入到集合中
}else{
System.out.println(“匹配不到合适的路径“);
}
}
}while(false);
} catch (Exception e1) {
e1.printStackTrace();
}
if(imgCount>=50){
System.out.println(“获取图片“+imgCount+“等待3秒“);
break;
}
try {
Thread.sleep(3000);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
System.out.println(“总耗时:“ + ((System.currentTimeMillis() - startTime)/60000));
}
/*读取一个网页全部内容*/
public String getOneHtml( String htmlurl) throws IOException {
URL url;
String temp;
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2016-11-25 17:06 CarCarCar\
文件 250231 2016-11-25 16:51 CarCarCar\7.1allCarImageUrl.txt
文件 249915 2016-11-25 16:52 CarCarCar\7.2allCarImageUrl.txt
文件 249953 2016-11-25 16:53 CarCarCar\7.3allCarImageUrl.txt
文件 251291 2016-11-25 16:53 CarCarCar\7.4allCarImageUrl.txt
文件 224178 2016-11-25 16:54 CarCarCar\7.5allCarImageUrl.txt
目录 0 2016-11-25 16:37 CarCarCar\MyCarImage\
文件 943 2016-11-22 10:34 CarCarCar\MyCarImage\.classpath
文件 386 2016-11-22 10:31 CarCarCar\MyCarImage\.project
目录 0 2016-11-25 16:37 CarCarCar\MyCarImage\.settings\
文件 598 2016-11-22 10:31 CarCarCar\MyCarImage\.settings\org.eclipse.jdt.core.prefs
目录 0 2016-11-25 16:37 CarCarCar\MyCarImage\bin\
目录 0 2016-11-25 16:37 CarCarCar\MyCarImage\bin\carImage\
文件 11957 2016-11-25 16:35 CarCarCar\MyCarImage\bin\carImage\Car.class
目录 0 2016-11-25 16:37 CarCarCar\MyCarImage\lib\
文件 232019 2016-11-22 10:34 CarCarCar\MyCarImage\lib\commons-beanutils-1.8.3.jar
文件 263965 2016-11-22 10:34 CarCarCar\MyCarImage\lib\commons-codec-1.9.jar
文件 575389 2016-11-22 10:34 CarCarCar\MyCarImage\lib\commons-collections-3.2.1.jar
文件 284220 2016-11-22 10:34 CarCarCar\MyCarImage\lib\commons-lang-2.6.jar
文件 61829 2016-11-22 10:34 CarCarCar\MyCarImage\lib\commons-logging-1.2.jar
文件 86487 2016-11-22 10:34 CarCarCar\MyCarImage\lib\ezmorph-1.0.6.jar
文件 732765 2016-11-22 10:34 CarCarCar\MyCarImage\lib\httpclient-4.5.1.jar
文件 326594 2016-11-22 10:34 CarCarCar\MyCarImage\lib\httpcore-4.4.3.jar
文件 159123 2016-11-22 10:34 CarCarCar\MyCarImage\lib\json-lib-2.4-jdk15.jar
文件 300844 2016-11-22 10:33 CarCarCar\MyCarImage\lib\jsoup-1.8.1.jar
目录 0 2016-11-25 16:37 CarCarCar\MyCarImage\src\
目录 0 2016-11-25 16:37 CarCarCar\MyCarImage\src\carImage\
文件 11409 2016-11-25 16:35 CarCarCar\MyCarImage\src\carImage\Car.java
文件 13107 2016-11-25 17:06 CarCarCar\car.docx
- 上一篇:JavaWeb购物车
- 下一篇:JSP聊天室源码+文档
相关资源
- UnixFTPEntryParser.java和FTPTimestampParserIm
- 17673110resources_zh.jar
- Yaazhini Setup 0.0.6.exe
- 中文 高清完整CHM版JDK_1.6_API_zh_CN.CHM
- shenrulijie-Java-xunijidierban-wenzhi-daimulu.
- JDK_API_1_6_zh_CN
- 《kotlin-for-android-developers-zh》(kotli
- resources_zh_CN_idea2019.jar
- web版基于Java的海康摄像头SDK车牌抓拍
- sonar-l10n-zh-plugin-1.8.jar
- NETCFv35.Messages.zh-CHS.wm.cab
- Confluence-5.10.0-rc1-language-pack-zh_CN.jar
- jsmartcom_zh_CN.jar
- JIRACore-7.1.2-language-pack-zh_CN.jar
- zhidev-Agriculture-master 智慧农业物联网应
- language-pack-zh_CN.jar
- intellij idea 中文语言包resources_zh_CN_I
- sonar-l10n-zh-plugin-1.26.jar
- sonar-l10n-zh-plugin-1.21-SNAPSHOT.jar
- sonar-l10n-zh-plugin-1.19
- justTrustMe .apk
评论
共有 条评论