• 大小: 4KB
    文件类型: .java
    金币: 2
    下载: 1 次
    发布日期: 2021-06-18
  • 语言: Java
  • 标签: java  爬虫  新闻  

资源简介

一个java爬虫上手小项目,用了一些粗糙的正则biaodashi

资源截图

代码片段和文件信息

package pachong;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class pachong {
static String SendGet(String url)
{
// 定义一个字符串用来存储网页内容
String result = ““;
// 定义一个缓冲字符输入流
BufferedReader in = null;
try
{
// 将string转成url对象
URL realUrl = new URL(url);
// 初始化一个链接到那个url的连接
URLConnection connection = realUrl.openConnection();
// 开始实际的连接
connection.connect();
// 初始化 BufferedReader输入流来读取URL的响应
in = new BufferedReader(new InputStreamReader(connection.getInputStream()“utf-8“));
// 用来临时存储抓取到的每一行的数据
String line;
while ((line = in.readLine()) != null)
{
// 遍历抓取到的每一行并将其存储到result里面
result += line;
}
} catch (Exception e)
{
System.out.println(“发送GET请求出现异常!“ + e);
e.printStackTrace();
}
// 使用finally来关闭输入流
finally
{
try
{
if (in != null)
{
in.close();
}
} catch (Exception e2)
{
e2.printStackTrace();
}
}
return result;
}

static ArrayList RegexString(String targetStr String patternStrString patternStr_headline)
{
ArrayList results = new ArrayList();

//去除html源码中所有的空格符换行符
Pattern p = Pattern.compile(“\\s*|\t|\r|\n“);
Matcher m = p.matcher(targetStr);
targetStr = m.replaceAll(““);

//先获取头条的链接和标题
// 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容
// 相当于埋好了陷阱匹配的地方就会掉下去
Pattern pattern_headline=Pattern.compile(patternStr_headline);
Matcher matcher_headline=pattern_headline.matcher(targetStr);
if(matcher_headline.find())

评论

共有 条评论