• 大小: 0M
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-06-16
  • 语言: Python
  • 标签: 其他  

资源简介

baidu.py

资源截图

代码片段和文件信息

#coding:utf-8
#5.6
#获取的url为真实url代码中设置了timeout为3s
#所以有些结果得到的依旧不是真实网址,想获取更多真实url可以增大timeout的值,但是无疑速度会更慢
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)

import requests
import urllib
import urllib2
import re

base_URL = ‘http://www.baidu.com‘
URL = ‘http://www.baidu.com/s?wd=‘

class Baidu():
session = requests.Session()
#这个变量存储当前页的网页代码
curContent = ‘‘
headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36‘+\
 ‘(KHTML like Gecko) Chrome/47.0.2526.106 Safari/537.36‘}
nextpage = ‘‘
def getContent(selfurl):
r = self.session.get(urlheaders = self.headers)
self.curContent = r.content
def getHref(self):
pattern = re.compile(‘ ‘+.*?>(.*?)‘re.S)
items = re.findall(patternself.curContent)
return items

#下面两个函数是为了得到当前所处的页数
def getPageContent(selfwebcontent):
‘‘‘
这里已经将所有的关于该页搜索结果中的页码信息都得到
可以在这里将其他页码的链接得到
‘‘‘
pattern = re.compile(‘(.*?)
‘re.S)
pageContent = re.findall(patternwebcontent)
# print pageContent
pageContent = pageContent[0]
return pageContent
def getCurrentPage(self):
pageContent = self.getPageContent(self.curContent)
regx = r‘(\d)‘
pm = re.search(regxpageContent)
curPage = pm.group(1)
return curPage
def getHrefByPage(selfpage):
if page == self.getCurrentPage():
print “It‘s the page you want“
return
pageContent = self.getPageContent(self.curContent)
regx = re.compile(r‘.*?(\d)‘re.S)
pm = re.findall(regxpageContent)
for item in pm:
if int

评论

共有 条评论