资源简介
1.CSpider文件夹下是我开始编写前参考的开源代码,结构比较清晰。单线程
2.任务概述是我这次写spider的过程的描述,我做这次spider的目的是完成一项课程设计。
3.整个spider的开发过程为增量式,从最开始的单页搜索url到最后的多线程spider,这在版本规划中又很明显的体现。每个版本都有自己的readme,其中详细叙述了各个版本的不同
4.由于是初学者,我在每个版本中都是边写边测试,以查找爬虫的bug,所以代码中有很多被注释的段落可能是测试使用。
5.具体版本信息查看各自的readme
另外,爬虫不止提取了url,同时提取了相应的锚文本。这个提取过程导致了爬虫速度的下降,
代码片段和文件信息
- 上一篇:C# 、.NET 读取AD域里用户名或组
- 下一篇:VB和C#互相调用
相关资源
- VB和C#互相调用
- C# 、.NET 读取AD域里用户名或组
- 数据结构C#语言版
- C# 使用 TcpClient,Socket 聊天
- c#高级教程第六版
- 开源的.net矢量图、流程图绘制软件
- matrix 矩阵运算类库C# 语言编写适用于
- c# 联机俄罗斯方块
- C#.Net开发抠图工具
- IP地址控件C#版
- C#在图片中写入文字
- C#读取DXF文件并显示dxf转hpgl
- c#导出excel支持多sheet导出,可自定义
- C#编程速查宝典 20140416
- LMI3D相机连接LMIHalconAcqTest.zip
- C#财务记账软件源码
- 国密SM4算法 C#
- C# 禁止结束进程保护进程不被结束(
- C#文档管理系统源码
- 酒店管理系统C#基于vs2010源代码和SQ
-
C#中操作xm
l文件插入节点、修改、删 -
C# 读写xm
l类 - de4dot-强大C#DLL反编译反混淆工具.zip
- 周立功CAN盒使用范例C#
- csharp版64位含GEOS PROJ
- c# 句柄类库 .net操作句柄
- 网络硬盘源代码C#
- C# PIng IP
- csharp免注册调用大漠插件.zip
- C#RSA加密解密签名和验证签名的小
评论
共有 条评论