资源简介
meituan_spider.rar

代码片段和文件信息
‘‘‘
author: Andy丶Tao
csdn博客: https://blog.csdn.net/tao15716645708
‘‘‘
import requests zlib base64
import random re xlrd
import json jsonpath
import pymysql
from datetime import datetime
from bs4 import BeautifulSoup
def getTime():
‘‘‘
:return: 返回从1970.1.1至今的毫秒数
‘‘‘
d1 = datetime(1970 1 1)
d2 = datetime.now()
d3 = int((d2 - d1).total_seconds() * 1000)
return d3
def url_encode(data stringify=False):
‘‘‘
token编码
:param data: 编码参数
:param stringify: boolean默认序列化
:return: token编码
‘‘‘
if (stringify == True):
base_data = zlib.compress(data.encode())
data = base64.b64encode(base_data)
return data
else:
data = json.dumps(data).replace(‘ ‘ ““)
return url_encode(data True)
def url_decode(data):
“““token解码“““
if isinstance(data str):
data = base64.b64decode(data)
base_data = zlib.decompress(data)
return base_data
def get_taken(url):
‘‘‘
访问酒店链接,从响应体里得到需要的参数信息
:param url: url
:return: taken
‘‘‘
cookies_iuuid = [
‘93AB5D4FEB3D1BFFF9B7727E5ECE71CF13A51383CD6ADB169C43832A6BB41843‘
‘8A8E20A923D42E033BC3505E3460BCC25AEA4D933CE3F233B19679BB0EEC89D4‘
‘C68174784AF5C11CC2F127774CC8BA60FB5E766509A7DCA8F4ECDFF59B45076F‘
‘850C1A14A798DC5834EEF2177EAAA430A8958DBE0813C5FAE858B61834D1F95D‘
]
response = requests.get(url headers=headers timeout=2.0)
response.encoding = ‘utf-8‘
soup = BeautifulSoup(response.text ‘lxml‘)
taken = {}
taken[“name“] = soup.select(‘.fs26.fc3.pull-left.bold‘)[0].text
taken[“cityId“] = re.findall(r‘“cityId“:[0-9]*‘ response.text)[0][8:]
taken[“poiId“] = re.findall(r‘“poiId“:[0-9]*‘ response.text)[0][8:]
taken[“start“] = re.findall(r‘“queryStart“:[0-9]*‘ response.text)[0][13:]
taken[“end“] = re.findall(r‘“queryEnd“:[0-9]*‘ response.text)[0][11:]
taken[“?type“] = “1“
taken[“&utm_medium“] = “PC“
taken[“version_name“] = “7.3.0“
# taken[“uuid“] = cookies_iuuid[random.randint(03)]
taken[“uuid“] = ‘7B20F54E2E3033B75A6B3775DDFDDF7D8EB12B67BA73BF1FA0FAB35619FDE640‘ # 如果这个uuid不管用,就把该行注释,并打开上一行注释
return taken
def get_tokon(taken):
‘‘‘
生成sign的值,并得到_token字典
:param taken: 明参
:return: _tokon
‘‘‘
sign = ‘“end=%s&poiId=%s&start=%s&type=1&utm_medium=PC&uuid=%s&version_name=%s“‘ % (
taken[‘end‘] taken[‘poiId‘] taken[‘start‘] taken[‘uuid‘] taken[‘version_name‘])
_tokon = {
“rId“: 100051
“ts“: getTime()
“cts“: getTime() + 356
“brVD“: [1536 222]
“brR“: [[1536 864] [1536 824] 24 24]
“bI“: [“%s“ % url ““]
“mT“: []
“kT“: []
“aT“: []
“tT“: []
“sign“: url_encode(sign).decode()
}
return _tokon
def get_url(_url):
‘‘‘
由于url连接各式各样,这里提取id,并拼接为
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 7408 2019-03-21 11:01 meituan_spider.py
----------- --------- ---------- ----- ----
7408 1
- 上一篇:扫雷游戏设计思路
- 下一篇:iFIX 数据库参考
相关资源
- PID_AutoTune_v0.rar
- vspd7.2.308.zip
- 价值2k的H漫画小说系统
- Pythonamp;课堂amp;笔记(高淇amp;400;集第
- ddos压力测试工具99657
- UML建模大全
- 开源1A锂电池充电板TP4056原理图+PCB
- m1卡 ic卡可选择扇区初始化加密软件
- TSCC.exe
- FTP课程设计(服务端+客户端)
- 计算机图形学 边填充算法实现代码
- 电力系统潮流计算程序集合
- oracle数据迁移项目实施方案
- Web Api 通过文件流 文件到本地
- Visio图标-最新最全的网络通信图标库
- Spire API文档
- OpenGL参考手册
- Python中Numpy库最新教程
- SPD博士V5.3.exe
- 直流无刷电机方波驱动 stm32 例程代码
- layui后台管理模板
- 仿知乎界面小程序源代码
- 云平台-阿里云详细介绍
- photoshop经典1000例
- scratch垃圾分类源码(最终版本).sb
- IAR ARM 7.8破解
- TI CCS V5.4 安装步骤及破解文件
- 松下plc FP-XH的驱动
- 局域网硬件信息收集工具
- 加快Windows XP操作系统开机速度
评论
共有 条评论