资源简介
通过第三方站点实现的再次采集然后入自己的库,还有许多地方不足,主要用来学习.
用到了
1.usort多维数组排序
2.phpcurl模拟post
3.采集必备 simple_html_dom类库
代码片段和文件信息
//采集地址 http://house2.4846.com:20002/houseCollect/wxColHousesView.do?token=&city=311
//如果大家想采集别的城市就去4846.com注册个号就知道了
set_time_limit(0);
header(“Content-type: text/html; charset=utf-8“);
date_default_timezone_set(PRC);
$t1 = microtime(true);
include(‘simple_html_dom.php‘);
//$content = file_get_contents(“data.txt“);
//默认取值昨天的
$from_time =date(“Y-m-d“strtotime(“-1 day“)); //包含昨天
$end_time = date(“Y-m-d“); //排除今天
$html = new simple_html_dom();
$houses = get_4846_houses($html$from_time);
usort($houses “cmp“);
var_dump($houses);
/* 下面是我自己的站的插入代码 我就把网址隐藏了 免得大家测试 ==!
$success_num = 0;
$url = “*“;
foreach($houses as $h){
if($h[‘time‘]>=$end_time or $h[‘time‘]<=$from_time){ //排除日期
continue;
}
$data = array (
‘source_u
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 7617 2016-02-05 09:20 rege4846.php
文件 65037 2012-09-10 16:08 simple_html_dom.php
----------- --------- ---------- ----- ----
72654 2
评论
共有 条评论