资源简介
一个java爬虫上手小项目,用了一些粗糙的正则biaodashi
代码片段和文件信息
package pachong;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.PrintWriter;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class pachong {
static String SendGet(String url)
{
// 定义一个字符串用来存储网页内容
String result = ““;
// 定义一个缓冲字符输入流
BufferedReader in = null;
try
{
// 将string转成url对象
URL realUrl = new URL(url);
// 初始化一个链接到那个url的连接
URLConnection connection = realUrl.openConnection();
// 开始实际的连接
connection.connect();
// 初始化 BufferedReader输入流来读取URL的响应
in = new BufferedReader(new InputStreamReader(connection.getInputStream()“utf-8“));
// 用来临时存储抓取到的每一行的数据
String line;
while ((line = in.readLine()) != null)
{
// 遍历抓取到的每一行并将其存储到result里面
result += line;
}
} catch (Exception e)
{
System.out.println(“发送GET请求出现异常!“ + e);
e.printStackTrace();
}
// 使用finally来关闭输入流
finally
{
try
{
if (in != null)
{
in.close();
}
} catch (Exception e2)
{
e2.printStackTrace();
}
}
return result;
}
static ArrayList RegexString(String targetStr String patternStrString patternStr_headline)
{
ArrayList results = new ArrayList();
//去除html源码中所有的空格符换行符
Pattern p = Pattern.compile(“\\s*|\t|\r|\n“);
Matcher m = p.matcher(targetStr);
targetStr = m.replaceAll(““);
//先获取头条的链接和标题
// 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容
// 相当于埋好了陷阱匹配的地方就会掉下去
Pattern pattern_headline=Pattern.compile(patternStr_headline);
Matcher matcher_headline=pattern_headline.matcher(targetStr);
if(matcher_headline.find())
- 上一篇:课设职工工资管理系统
- 下一篇:trident-7.0.jar
相关资源
- 详解docker镜像centos7配置Java运行环境
- java笔试题大全java笔试,面试笔试,逻
- Windows bat 设置Java环境变量
- java 毕业设计 进销存管理系统 源码
- java图片浏览器跨平台运行程序与源码
- 基于java的在线考试系统-毕业设计
- 微博系统(Java源码,servlet+jsp),适
- java串口通信全套完整代码-导入eclip
- jsonarray所必需的6个jar包.rar
- 三角网构TIN生成算法,Java语言实现
- java代码编写将excel数据导入到mysql数据
- Java写的cmm词法分析器源代码及javacc学
- JAVA JSP公司财务管理系统 源代码 论文
- JSP+MYSQL旅行社管理信息系统
- 推荐算法的JAVA实现
- 基于Java的酒店管理系统源码(毕业设
- java-图片识别 图片比较
- android毕业设计
- java23种设计模式+23个实例demo
- java Socket发送/接受报文
- JAVA828436
- java界面美化 提供多套皮肤直接使用
- 在线聊天系统(java代码)
- 基于Java的图书管理系统807185
- java中实现将页面数据导入Excel中
- java 企业销售管理系统
- java做的聊天系统(包括正规课程设计
- Java编写的qq聊天室
- 商店商品管理系统 JAVA写的 有界面
- JAVA开发聊天室程序
评论
共有 条评论