资源简介
旅游攻略选择
代码片段和文件信息
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import time
import random
from fake_useragent import UserAgent
#import re
#爬取每个网址的分页
fb = open(r‘url.txt‘‘w‘)
# --------------------所有城市------------------------- #
#url = ‘http://travel.qunar.com/travelbook/list.htm?page={}&order=hot_heat&avgPrice=1_2‘
#请求头,cookies在电脑网页中可以查到
#ua = UserAgent()
#headers={‘user-agent‘:ua.random
# ‘cookies‘:‘JSESSIONID=5E9DCED322523560401A95B8643B49DF; QN1=00002b80306c204d8c38c41b; QN300=s%3Dbaidu; QN99=2793; QN205=s%3Dbaidu; QN277=s%3Dbaidu; QunarGlobal=10.86.213.148_-3ad026b5_17074636b8f_-44df|1582508935699; QN601=64fd2a8e533e94d422ac3da458ee6e88; _i=RBTKSueZDCmVnmnwlQKbrHgrodMx; QN269=D32536A056A711EA8A2FFA163E642F8B; QN48=6619068f-3a3c-496c-9370-e033bd32cbcc; fid=ae39c42c-66b4-4e2d-880f-fb3f1bfe72d0; QN49=13072299; csrfToken=51sGhnGXCSQTDKWcdAWIeIrhZLG86cka; QN163=0; Hm_lvt_c56a2b5278263aa647778d304009eafc=1582513259158252993015825510991582588666; viewdist=298663-1; uld=1-300750-1-1582590496|1-300142-1-1582590426|1-298663-1-1582590281|1-300698-1-1582514815; _vi=6vK5Gry4UmXDT70IFohKyFF8R8Mu0SvtUfxawwaKYRTq9NKud1iKUt8qkTLGH74E80hXLLVOFPYqRGy52OuTFnhpWvBXWEbkOJaDGaX_5L6CnyiQPPOYb2lFVxrJXsVd-W4NGHRzYtRQ5cJmiAbasK8kbNgDDhkJVTC9YrY6Rfi2; viewbook=7562814|7470570|7575429|7470584|7473513; QN267=675454631c32674; Hm_lpvt_c56a2b5278263aa647778d304009eafc=1582591567; QN271=c8712b13-2065-4aa7-a70b-e6156f6fc216‘
# ‘referer‘:‘http://travel.qunar.com/travelbook/list.htm?page=1&order=hot_heat&avgPrice=1‘}
# -------------------以西安为例-------------------------#
url = ‘http://travel.qunar.com/travelbook/list/22-xian-300100/hot_heat/{}.htm?avgPrice=1_2‘
#请求头,cookies在电脑网页中可以查到
ua = UserAgent()
headers = {
‘user-agent‘:ua.random
‘cookies‘:‘JSESSIONID=5E9DCED322523560401A95B8643B49DF; QN1=00002b80306c204d8c38c41b; QN300=s%3Dbaidu; QN99=2793; QN205=s%3Dbaidu; QN277=s%3Dbaidu; QunarGlobal=10.86.213.148_-3ad026b5_17074636b8f_-44df|1582508935699; QN601=64fd2a8e533e94d422ac3da458ee6e88; _i=RBTKSueZDCmVnmnwlQKbrHgrodMx; QN269=D32536A056A711EA8A2FFA163E642F8B; QN48=6619068f-3a3c-496c-9370-e033bd32cbcc; fid=ae39c42c-66b4-4e2d-880f-fb3f1bfe72d0; QN49=13072299; csrfToken=51sGhnGXCSQTDKWcdAWIeIrhZLG86cka; QN163=0; Hm_lvt_c56a2b5278263aa647778d304009eafc=1582513259158252993015825510991582588666; viewdist=298663-1; uld=1-300750-1-1582590496|1-300142-1-1582590426|1-298663-1-1582590281|1-300698-1-1582514815; _vi=6vK5Gry4UmXDT70IFohKyFF8R8Mu0SvtUfxawwaKYRTq9NKud1iKUt8qkTLGH74E80hXLLVOFPYqRGy52OuTFnhpWvBXWEbkOJaDGaX_5L6CnyiQPPOYb2lFVxrJXsVd-W4NGHRzYtRQ5cJmiAbasK8kbNgDDhkJVTC9YrY6Rfi2; viewbook=7562814|7470570|7575429|7470584|7473513; QN267=675454631c32674; Hm_lpvt_c56a2b5278263aa647778d304009eafc=1582591567; QN271=c8712b13-2065-4aa7-a70b-e6156f6fc216‘
‘referer‘:‘http://travel.qunar.com/travelbook/list/22-xian-300100/hot_heat/1.htm?avgPrice=1_2‘
}
# -------------------网址爬取-------------------------
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 244291 2020-03-25 20:56 The_Travel.csv
文件 80730 2020-04-03 16:30 Travel.csv
文件 123147 2020-03-25 20:56 Travel数据分析可视化.ipynb
文件 16396 2020-04-03 09:23 url - Copy.txt
文件 9567 2020-04-03 15:12 url.txt
文件 4188 2020-04-03 15:06 爬虫上.py
文件 5014 2020-04-03 15:59 爬虫下.py
文件 170 2020-03-25 20:56 简介说明.txt
- 上一篇:LINGO线性规划及其灵敏度分析.doc
- 下一篇:WSockExpert抓包工具
相关资源
- 很好用的网站前端页面爬取工具
- 旅游生态系统健康评价与可持续发展
- pip-10.0.1.tar.gz
- Data Science from Scratch 2nd Edition
- shape_predictor_68_face_landmarks.dat.bz2 68个标
- 爬取豆瓣电影TOP250程序,包含非常详
- Web Scraper 爬虫 网页抓取 Chrome插件
- 智慧旅游系统功能白皮书
- 中文维基百科语料库百度网盘网址.
- MSCNN_dehaze.rar
- 基于.net开发的旅游网站系统
- 爬取豆瓣排行榜电影数据(含GUI界面
- 字典文本资源
- 爬取新浪微博上的妹纸照片的爬虫程
- 中国行政区划到村总.txt
- Brainfuck / OoK 解码脚本
- 旅游订单系统
- QT旅游攻略软件程序源代码
- 案例实战信用卡欺诈检测数据集
- Lucene(搜索)Demo
- 旅游网站管理系统的设计与实现
- 招商策略_抱团启示录那些年我们一起
- 机械主题爬虫的设计与实现
- 论文研究 - 使用能源效率,生态设计
- 论文研究 - 基于客源市场细分的旅游
- sip-4.19.zip
- 树莓派3b+学习使用教程
- 模拟登录一些常见的网站
- numpy 中文学习手册
- NBA数据爬虫
评论
共有 条评论