资源简介
baidu.py
代码片段和文件信息
#coding:utf-8
#5.6
#获取的url为真实url代码中设置了timeout为3s
#所以有些结果得到的依旧不是真实网址,想获取更多真实url可以增大timeout的值,但是无疑速度会更慢
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
import requests
import urllib
import urllib2
import re
base_URL = ‘http://www.baidu.com‘
URL = ‘http://www.baidu.com/s?wd=‘
class Baidu():
session = requests.Session()
#这个变量存储当前页的网页代码
curContent = ‘‘
headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36‘+\
‘(KHTML like Gecko) Chrome/47.0.2526.106 Safari/537.36‘}
nextpage = ‘‘
def getContent(selfurl):
r = self.session.get(urlheaders = self.headers)
self.curContent = r.content
def getHref(self):
pattern = re.compile(‘ ‘+.*?>(.*?)‘re.S)
items = re.findall(patternself.curContent)
return items
#下面两个函数是为了得到当前所处的页数
def getPageContent(selfwebcontent):
‘‘‘
这里已经将所有的关于该页搜索结果中的页码信息都得到
可以在这里将其他页码的链接得到
‘‘‘
pattern = re.compile(‘(.*?)‘re.S)
pageContent = re.findall(patternwebcontent)
# print pageContent
pageContent = pageContent[0]
return pageContent
def getCurrentPage(self):
pageContent = self.getPageContent(self.curContent)
regx = r‘(\d)‘
pm = re.search(regxpageContent)
curPage = pm.group(1)
return curPage
def getHrefByPage(selfpage):
if page == self.getCurrentPage():
print “It‘s the page you want“
return
pageContent = self.getPageContent(self.curContent)
regx = re.compile(r‘.*?(\d)‘re.S)
pm = re.findall(regxpageContent)
for item in pm:
if int
- 上一篇:knn 字符识别 python
- 下一篇:knn_search.py
相关资源
- Python接口测试框架实战与自动化进阶
- dtree_c4.5.py
- Spider-Meituan-Merchant.py
- Python3爬虫入门到精通课程视频附软件
- 某网Python3.6电商实战VueDjango.zip
- python大作业.rar
- 寻路.py
- Python串口操作.zip
- python资料.txt
- python检索新浪微博.zip
- Python手机短信轰炸.py
- 零基础:21天搞定Python分布式爬虫入门
- meituan_room.py
- python代码笔记.txt
- sniffer_get_body.py
- 手机短信轰炸.py
- you-get妹子图.py
- Python人工智能AI深度学习全套课程.t
- 千锋python爬虫教程之scrapy框架.txt
- 小甲鱼python课程96集包含源码+课件+课
- 小甲鱼python课程96集含源码课件课后习
- Python从入门到精通教程共40G.txt
- 06窗口摄像(视频).py
- nulindai.py
- 最新Python3.6网络爬虫实战案例5章(基
- 21天学通python.txt
- des.py
- 钉钉自定义机器人发送图片.py
- python-urx-master.zip
- python就业班.txt
评论
共有 条评论