资源简介
测试了下:抓取单页没事,批量抓取暂时没发现在哪里。。。
网络爬虫程序源码
这是一款用 C# 编写的网络爬虫
主要特性有:
可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。
状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。
有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。
健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。
较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。
今后有空可能加入的特性:
新特性 介绍
爬取文件用Berkeley DB存储 提高性能: 常用操作系统不善于处理大量小文件
基于URL Ranking的优先级队列 主题爬虫: 机器学习算法对链接与主题相关度进行评估,并按照得出的优先级顺序进行爬取
爬虫礼仪 遵循爬虫禁止协议、以及避免对服务器资源的过度使用等
性能优化 用UDP取代封装好的HttpWebRequest/Response
DNS缓存
异步的DNS地址解析
硬盘缓存或内存数据库以避免频繁的磁盘寻道
分布式爬虫以扩展单机能力(CPU、内存和硬盘访问)
代码片段和文件信息
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Windows.Forms;
using NWebCrawlerLib;
using System.Diagnostics;
// 源码下载 www.51aspx.com
namespace NWebCrawler
{
public partial class MainForm : Form
{
#region Fields
private PerformanceCounter m_cpuCounter;
private PerformanceCounter m_ramCounter;
private Downloader m_downloader;
#endregion
#region Properties
// number of bytes downloaded
private int nByteCount;
private int ByteCount
{
get { return nByteCount; }
set
{
nByteCount = value;
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 162 2010-01-05 10:27 win_NWebCrawler\bin\config.ini
文件 36654 2010-01-05 10:40 win_NWebCrawler\bin\download\0003be8238c8302e17c799d9f5d65876.gif
文件 73958 2010-01-05 10:40 win_NWebCrawler\bin\download\0718ad68487fa12de0cc75b20f7be03c.html; charset=utf-8
文件 48666 2010-01-05 10:40 win_NWebCrawler\bin\download\082e9d970f371da4f6e74dbe2c97f6e2.html; charset=utf-8
文件 317 2010-01-05 10:41 win_NWebCrawler\bin\download\132949602460dfebc35da092329cba0c.gif
文件 4334 2010-01-05 10:47 win_NWebCrawler\bin\download\1695505243ceaa9c68e5a00061d1763f.ja
文件 15297 2010-01-05 10:40 win_NWebCrawler\bin\download\1df7133090a0d07c5cec8fccbf6fd8dd.html; charset=utf-8
文件 164 2010-01-05 10:40 win_NWebCrawler\bin\download\203557adfb69f0b4da4e237df2c0899a.html; charset=gb2312
文件 14650 2010-01-05 10:40 win_NWebCrawler\bin\download\23e5f50b0b42662c6694e574e74835cd.html; charset=utf-8
文件 63579 2010-01-05 10:41 win_NWebCrawler\bin\download\24eebf7019dc355f064372d6a889c60a.html; charset=gb2312
文件 54471 2010-01-05 10:41 win_NWebCrawler\bin\download\27439efce81b9ca84182d54aa411418e.html; charset=gb2312
文件 36711 2010-01-05 10:40 win_NWebCrawler\bin\download\2a2f02ca86459cde185fc8e8e9045bed.html; charset=utf-8
文件 287 2010-01-05 10:40 win_NWebCrawler\bin\download\349427e49e96cbca35651e55ef94353d.gif
文件 108468 2010-01-05 10:40 win_NWebCrawler\bin\download\3891570720e771c847e5ac23e28aa6cc.html
文件 322 2010-01-05 10:41 win_NWebCrawler\bin\download\3ff2932f670fc24203b1290df195dabf.gif
文件 10 2010-01-05 10:46 win_NWebCrawler\bin\download\417d9e708c95da24b75705338598087f.html
文件 47067 2010-01-05 10:41 win_NWebCrawler\bin\download\44b19dec343bee7540d2e563399518f6.html; charset=gb2312
文件 22221 2010-01-05 10:40 win_NWebCrawler\bin\download\46e1c646c9965ce2581be0e2baa182cf.html; charset=utf-8
文件 4962 2010-01-05 10:46 win_NWebCrawler\bin\download\48bfe5c4818bc6d7d0a86b7c5d5a963a.ja
文件 11484 2010-01-05 10:46 win_NWebCrawler\bin\download\4cef95f512517e118d0427cdf40d8d91.ja
文件 48471 2010-01-05 10:40 win_NWebCrawler\bin\download\54cd270476c08dc49137cc587d5420e7.html; charset=utf-8
文件 305 2010-01-05 10:40 win_NWebCrawler\bin\download\5ae7c8b442091b3c740b5f89f2202977.gif
文件 46870 2010-01-05 10:41 win_NWebCrawler\bin\download\5f194c03340af2c82af0806b4cd95f44.html; charset=gb2312
文件 39917 2010-01-05 10:46 win_NWebCrawler\bin\download\6a78a05748d064e4491b674a391174c7.ja
文件 74477 2010-01-05 10:40 win_NWebCrawler\bin\download\6ba086f85f3602a364dae60f740138c5.html; charset=gb2312
文件 93739 2010-01-05 10:29 win_NWebCrawler\bin\download\73e9259e079ac68519bd2cf67af06c13.html; charset=utf-8
文件 1570 2010-01-05 10:46 win_NWebCrawler\bin\download\753a67d9417f20f83e1dce17d6146f85.gif
文件 3440 2010-01-05 10:40 win_NWebCrawler\bin\download\767223508f1bd57304d84720065f9ee8.x-ja
文件 103862 2010-01-05 10:41 win_NWebCrawler\bin\download\7780c2d0134fad8b7a05a95d0f7b3378.html; charset=gb2312
文件 205 2010-01-05 10:47 win_NWebCrawler\bin\download\7a6721fd05029de13a9df0e2a0948f25.html; charset=UTF-8
............此处省略250个文件信息
相关资源
- C#联通网络宽带测试 拨号
- C#百度指数抓取方法(2012年版本已失
- C# 隐藏某个磁盘分区
- wince引脚控制程序
- C# 读取并编辑window系统的右键菜单
- C#自定义屏保(不断滚动的文字)
- C#winform打印指定区域 -控件拖动 -设置
- C#使用Hook进行改键
- 提供C#调用系统API函数弹出或收起光驱
- 通过C#自带的头文件(类)获取Windo
- C#获取电脑CPU以及内存使用率
- Syndication实现读取、创建、订阅、更新
- 利用uu云打码平台的lib实现的c#打码平
- tf-idf一种计算方法
- C# pop3 邮件接收程序
- C# 邮件群发示例 源码下载18952
- httpclient source code by csharp
- 动态抓取IPC#实现
- NServiceKit.Redis 基础操作
- XXTEA算法的C#实现和JS实现,可以互相
- C# 飞行棋 游戏源码(面向对象入门)
- Socke传输 (wince6.0系统)
- UDP Messenger 1.0.unitypackage
- asp.net 网页静态化组件(shipingx-Stati
- SocketAsyncEventArgs完成断开编程
- 基于WinPcap的C# ARP欺骗软件().rar
- C#网络应用编程 矩阵并行计算练习
- 猜数小游戏WCF网络编程技术(附服务
- 《C#版Ftp软件源码》
- 多种方法监测网络是否连接
评论
共有 条评论