资源简介
师兄写的python 爬虫的程序,师兄写的python 爬虫的程序
代码片段和文件信息
# -*- coding: cp936 -*-
import urllib
import urllib2
import httplib
import threading
import re
import string
import time
import os
import StringIO
import gzip
from urllib2 import URLErrorHTTPError
from httplib import BadStatusLine
class spider(threading.Thread):
def __init__(selfthreadnameresultstartpagebasekeywordpathmode=0):
threading.Thread.__init__(selfname=threadname)
self.result=result
self.startpage=startpage
self.base=base
self.keyword=keyword
self.path=path
self.mode=mode #爬取的类型:商品 公司
def run(self):
starttime=time.clock()
retry=0 #设置连接次数
page=self.startpage
while 1:
if(page>70): #公司类
endtime=time.clock()
print self.getName()+‘thread finish total time:%d‘%(endtime-starttime)
#print self.result
print ‘**********%d‘%len(self.result)
break
if(page>10 and self.mode==1): #商品类
endtime=time.clock()
print self.getName()+‘thread finish total time:%d‘%(endtime-starttime)
#print self.result
print ‘**********%d‘%len(self.result)
break
try:
url=“http://www.baidu.com/s?wd=“+urllib.quote(self.keyword)+“&pn=“+str(page*10)
#url=“http://www.google.com.hk/search?q=“+urllib.quote(self.keyword)+‘&hl=zh-CN&newwindow=1&safe=strict&biw=1199&bih=654&prmd=ivnscm&ei=HMOCTeWyDo_RcfjR_ZkD&start=‘+str(page*10)
req=urllib2.Request(url)
req.add_header(“User-Agent“‘Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.0.5) Gecko/2008121622 Ubuntu/8.10 (intrepid) Firefox/3.0.5‘)
response=urllib2.urlopen(req)
html=response.read()
self.searchResult(htmlself.mode)
page=page+self.base
except HTTPErrore:
print “the server can‘t fullfill the request.\n“
print “Error code:“e.code
page=page+self.base
except URLErrore:
if(retry>2):
print “can‘t open the %d page url“%page
print “URLError:“e.reason
page=page+self.base
retry=0
else:
print “retry connnect to:%d page“%page
相关资源
- python实现SGBM图像匹配算法
- python实现灰度直方图均衡化
- scrapy_qunar_one
- Python学习全系列教程永久可用
- python简明教程.chm
- 抽奖大转盘python的图形化界面
- 双边滤波器实验报告及代码python
- python +MYSQL+HTML实现21蛋糕网上商城
- Python-直播答题助手自动检测出题搜索
- OpenCV入门教程+OpenCV官方教程中文版
- Python 串口工具源码+.exe文件
- Python开发的全栈股票系统.zip
- Python操作Excel表格并将其中部分数据写
- python书籍 PDF
- 利用python绘制散点图
- python+labview+No1.vi
- 老男孩python项目实战
- python源码制作whl文件.rar
- python3.5可用的scipy
- PYTHON3 经典50案例.pptx
- 计算机科学导论-python.pdf
- python模拟鼠标点击屏幕
- windows鼠标自动点击py脚本
- 鱼c小甲鱼零基础学python全套课后题和
- Python 练习题100道
- Practical Programming 2nd Edition
- wxPython Application Development Cookbook
- python 3.6
- Python 3.5.2 中文文档 互联网唯一CHM版本
- python3.5.2.chm官方文档
评论
共有 条评论