资源简介
使用java的jsoup爬虫demo,爬取页面上的内容并使用输出流写到本地
代码片段和文件信息
package springboot.jsoup;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.*;
import java.net.HttpURLConnection;
import java.net.URL;
public class JsoupDemo {
private static OutputStream os;
public static void main(String[] args) {
try {
Document doc = Jsoup.connect(“https://blog.csdn.net/qq_15260315“).get();
//指定文件名及路径
File file = new File(“E:\\jsoup\\word\\csdn.txt“);
if (!file.exists()) {
file.createNewFile();
}
//获取标题和地址的对象
Elements titles = doc.getElementsByClass(“article-item-box“);
//写入本地
PrintWriter pw = new PrintWriter(“E:\\jsoup\\word\\csdn.txt““UTF-8“);
for (Element e:titles) {
Elements a = e.select(“h4“).select(“a“)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2018-07-06 11:38 boot\
目录 0 2018-07-06 11:38 boot\.idea\
文件 525 2018-07-06 08:33 boot\.idea\compiler.xm
文件 172 2018-07-03 15:59 boot\.idea\encodings.xm
文件 640 2018-07-03 15:59 boot\.idea\misc.xm
文件 8792 2018-07-04 09:13 boot\.idea\uiDesigner.xm
文件 32511 2018-07-06 11:36 boot\.idea\workspace.xm
文件 80 2018-07-03 15:59 boot\boot.iml
文件 3166 2018-07-06 10:12 boot\pom.xm
目录 0 2018-07-06 11:38 boot\src\
目录 0 2018-07-06 11:38 boot\src\main\
目录 0 2018-07-06 11:38 boot\src\main\java\
目录 0 2018-07-06 11:39 boot\src\main\java\springboot\
目录 0 2018-07-06 11:38 boot\src\main\java\springboot\jsoup\
文件 2337 2018-07-06 11:36 boot\src\main\java\springboot\jsoup\JsoupDemo.java
目录 0 2018-07-06 11:39 boot\src\main\resources\
目录 0 2018-07-06 11:39 boot\src\main\webapp\
文件 52 2018-07-03 15:59 boot\src\main\webapp\index.jsp
目录 0 2018-07-06 11:39 boot\src\main\webapp\WEB-INF\
文件 215 2018-07-03 15:59 boot\src\main\webapp\WEB-INF\web.xm
目录 0 2018-07-06 11:38 boot\target\
目录 0 2018-07-06 11:38 boot\target\classes\
目录 0 2018-07-06 11:38 boot\target\classes\springboot\
目录 0 2018-07-06 11:38 boot\target\classes\springboot\controller\
文件 590 2018-07-06 10:13 boot\target\classes\springboot\controller\HtmlController.class
文件 1168 2018-07-06 10:13 boot\target\classes\springboot\controller\JspController.class
目录 0 2018-07-06 11:38 boot\target\classes\springboot\jsoup\
文件 3633 2018-07-06 11:35 boot\target\classes\springboot\jsoup\JsoupDemo.class
文件 722 2018-07-06 10:13 boot\target\classes\springboot\SpringBootDemoApplication.class
目录 0 2018-07-06 11:38 boot\target\classes\templates\
文件 145 2018-07-04 08:59 boot\target\classes\templates\aaa.html
............此处省略2个文件信息
评论
共有 条评论