资源简介
Python ip 代理池爬取工具,Python ip 代理池爬取工具,Python ip 代理池爬取工具
代码片段和文件信息
# coding:utf-8
‘‘‘
定义规则 urls:url列表
type:解析方式取值 regular(正则表达式)xpath(xpath解析)module(自定义第三方模块解析)
patten:可以是正则表达式可以是xpath语句不过要和上面的相对应
‘‘‘
import os
import random
‘‘‘
ip,端口,类型(0高匿名,1透明),protocol(0 http1 https)country(国家)area(省市)updatetime(更新时间)
speed(连接速度)
‘‘‘
parserList = [
{
‘urls‘: [‘http://www.66ip.cn/%s.html‘ % n for n in [‘index‘] + list(range(2 12))]
‘type‘: ‘xpath‘
‘pattern‘: “.//*[@id=‘main‘]/div/div[1]/table/tr[position()>1]“
‘position‘: {‘ip‘: ‘./td[1]‘ ‘port‘: ‘./td[2]‘ ‘type‘: ‘./td[4]‘ ‘protocol‘: ‘‘}
}
{
‘urls‘: [‘http://www.66ip.cn/areaindex_%s/%s.html‘ % (m n) for m in range(1 35) for n in range(1 10)]
‘type‘: ‘xpath‘
‘pattern‘: “.//*[@id=‘footer‘]/div/table/tr[position()>1]“
‘position‘: {‘ip‘: ‘./td[1]‘ ‘port‘: ‘./td[2]‘ ‘type‘: ‘./td[4]‘ ‘protocol‘: ‘‘}
}
{
‘urls‘: [‘http://cn-proxy.com/‘ ‘http://cn-proxy.com/archives/218‘]
‘type‘: ‘xpath‘
‘pattern‘: “.//table[@class=‘sortable‘]/tbody/tr“
‘position‘: {‘ip‘: ‘./td[1]‘ ‘port‘: ‘./td[2]‘ ‘type‘: ‘‘ ‘protocol‘: ‘‘}
}
{
‘urls‘: [‘http://www.mimiip.com/gngao/%s‘ % n for n in range(1 10)]
‘type‘: ‘xpath‘
‘pattern‘: “.//table[@class=‘list‘]/tr“
‘position‘: {‘ip‘: ‘./td[1]‘ ‘port‘: ‘./td[2]‘ ‘type‘: ‘‘ ‘protocol‘: ‘‘}
}
{
‘urls‘: [‘https://proxy-list.org/english/index.php?p=%s‘ % n for n in range(1 10)]
‘type‘: ‘module‘
‘moduleName‘: ‘proxy_listPraser‘
‘pattern‘: ‘Proxy\(.+\)‘
‘position‘: {‘ip‘: 0 ‘port‘: -1 ‘type‘: -1 ‘protocol‘: 2}
}
{
‘urls‘: [‘http://incloak.com/proxy-list/%s#list‘ % n for n in
([‘‘] + [‘?start=%s‘ % (64 * m) for m in range(1 10)])]
‘type‘: ‘xpath‘
‘pattern‘: “.//table[@class=‘proxy__t‘]/tbody/tr“
‘position‘: {‘ip‘: ‘./td[1]‘ ‘port‘: ‘./td[2]‘ ‘type‘: ‘‘ ‘protocol‘: ‘‘}
}
{
‘urls‘: [‘http://www.kuaidaili.com/proxylist/%s/‘ % n for n in range(1 11)]
‘type‘: ‘xpath‘
‘pattern‘: “.//*[@id=‘index_free_list‘]/table/tbody/tr[position()>0]“
‘position‘: {‘ip‘: ‘./td[1]‘ ‘port‘: ‘./td[2]‘ ‘type‘: ‘./td[3]‘ ‘protocol‘: ‘./td[4]‘}
}
{
‘urls‘: [‘http://www.kuaidaili.com/free/%s/%s/‘ % (m n) for m in [‘inha‘ ‘intr‘ ‘outha‘ ‘outtr‘] for n in
range(1 11)]
‘type‘: ‘xpath‘
‘pattern‘: “.//*[@id=‘list‘]/table/tbody/tr[position()>0]“
‘position‘: {‘ip‘: ‘./td[1]‘ ‘port‘: ‘./td[2]‘ ‘type‘: ‘./td[3]‘ ‘protocol‘: ‘./td[4]‘}
}
{
‘urls‘: [‘http://www.cz88.net/proxy/%s‘ % m for m in
[‘index.shtml‘] + [‘http_%s.shtml‘ % n for n in range(2 11)]]
‘type‘: ‘xpath‘
‘pattern‘: “.//*[@id=‘boxright‘]/div/ul/li[position()>1]“
‘position‘: {‘ip‘: ‘./div[1]‘ ‘port‘: ‘./div[2]‘ ‘type‘: ‘./div[3]‘
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2017-06-16 07:30 IPProxyPool-master\
文件 1056 2017-06-16 07:30 IPProxyPool-master\.gitignore
文件 764 2017-06-16 07:30 IPProxyPool-master\IPProxy.py
文件 13034 2017-06-16 07:30 IPProxyPool-master\README.md
目录 0 2017-06-16 07:30 IPProxyPool-master\api\
文件 22 2017-06-16 07:30 IPProxyPool-master\api\__init__.py
文件 867 2017-06-16 07:30 IPProxyPool-master\api\apiServer.py
文件 11286 2017-06-16 07:30 IPProxyPool-master\config.py
目录 0 2017-06-16 07:30 IPProxyPool-master\data\
文件 9290764 2017-06-16 07:30 IPProxyPool-master\data\qqwry.dat
目录 0 2017-06-16 07:30 IPProxyPool-master\db\
文件 1456 2017-06-16 07:30 IPProxyPool-master\db\DataStore.py
文件 546 2017-06-16 07:30 IPProxyPool-master\db\ISqlHelper.py
文件 2431 2017-06-16 07:30 IPProxyPool-master\db\MongoHelper.py
文件 5377 2017-06-16 07:30 IPProxyPool-master\db\RedisHelper.py
文件 5427 2017-06-16 07:30 IPProxyPool-master\db\SqlHelper.py
文件 22 2017-06-16 07:30 IPProxyPool-master\db\__init__.py
文件 28228 2017-06-16 07:30 IPProxyPool-master\qiye2.jpg
文件 127 2017-06-16 07:30 IPProxyPool-master\requirements.txt
目录 0 2017-06-16 07:30 IPProxyPool-master\spider\
文件 1429 2017-06-16 07:30 IPProxyPool-master\spider\HtmlDownloader.py
文件 6101 2017-06-16 07:30 IPProxyPool-master\spider\HtmlPraser.py
文件 3669 2017-06-16 07:30 IPProxyPool-master\spider\ProxyCrawl.py
文件 22 2017-06-16 07:30 IPProxyPool-master\spider\__init__.py
文件 16 2017-06-16 07:30 IPProxyPool-master\start.bat
目录 0 2017-06-16 07:30 IPProxyPool-master\test\
文件 22 2017-06-16 07:30 IPProxyPool-master\test\__init__.py
文件 395 2017-06-16 07:30 IPProxyPool-master\test\test.py
文件 4810 2017-06-16 07:30 IPProxyPool-master\test\testIPAddress.py
文件 1528 2017-06-16 07:30 IPProxyPool-master\test\testIPType.py
文件 288 2017-06-16 07:30 IPProxyPool-master\test\testba
............此处省略14个文件信息
相关资源
- PyInstaller-3.5.tar.gz
- 廖雪峰Python教程[完整版]
- Python 3.5.2 入门指南 高清
- python修改域帐户密码
- Python_Testing_with_pytest
- 笨办法学Python第3版
- python cookbook 第三版中文版
- Numerical Methods In Engineering With Python
- Python参考手册 第4版 修订版
- python课程设计
- Think.Python.3rd.Edition.pdf
- Python语言开发RESTful API指南
- tensorflow-1.9.0-cp37-cp37m-win_amd64.whl
- [超清版]用Python进行自然语言处理.中
- python版计算机程序与构造
- Python-GUI-programming-with-Tkinter
- python tools for visual studio 2010
- python3-tkinter官方高清文档
- python_pandas
- Python语言程序设计基础(第2版)全答
- Python3语法速查本
- python3 ocr 识别图片文字CSDN验证码90%通
- python爬取前程无忧存mogondb+数据可视化
- python 12306购票助手.zip
- python for informatics 中文和英文
- Python-NLP之旅包含NLP文章代码集锦
- Python Django 项目个人网站完整代码
- 像计算机科学家一样思考Python第2版异
- Python第三方库Twisted最新版本64位系统
- Machine Learning with Python Cookbook Practica
评论
共有 条评论