• 大小: 5KB
    文件类型: .py
    金币: 2
    下载: 2 次
    发布日期: 2021-08-05
  • 语言: Python
  • 标签: Python  爬虫  

资源简介

Python利用bs4 分析网页进行爬取,利用numpy matplotlib pandas进行分析展示。

资源截图

代码片段和文件信息

import requests#发送请求
import re#正则
import json
import time
import xlwt
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt


DATA=[]
url=‘https://s.taobao.com/search?q=python&imgfile=&js=1&stats_click\
=search_radio_all%3A1&initiative_id=staobaoz_20180517&ie=utf8‘
#发送http请求
response=requests.get(url)
#print(response.text)
#html源码
html=response.text
#分析信息
content=re.findall(r‘ g_page_config =(.*?)g_srp_loadCss‘htmlre.S)[0].strip()[:-1]
#print(concent)
#格式化json
content=json.loads(content)
#print(type(content))
#print(content)
data_list=content[‘mods‘][‘itemlist‘][‘data‘][‘auctions‘]
#print(data_list)#信息列表
#提取数据
for item in data_list:
    #print(item)
    temp = {
        ‘title‘: item[‘title‘]
        ‘view_price‘: item[‘view_price‘]
        ‘view_sales‘: item[‘view_sales‘]
        ‘view_fee‘: ‘否‘ if float(item[‘view_fee‘]) else ‘是‘
        ‘isTmall‘: ‘是‘ if item[‘shopcard‘][‘isTmall‘]else ‘否‘
        ‘area‘: item[‘item_loc‘]
        ‘name‘: item[‘nick‘]
        ‘detail_url‘: item[‘detail_url‘]
    }
    DATA.append(temp)
#print(len(DATA))
#获取异步信息
#cookie保持
cookies=response.cookies
url2=‘https://s.taobao.com/api?_ksTS=1526548183624_226&callback=jsonp227&\
ajax=true&m=customized&stats_click=search_radio_all:1&q=python&s=36&imgfile=&initiative_id=\
staobaoz_20180517&bcoffset=-1&js=1&ie=utf8&rn=72373a2deab8dec4aa62da4bf9c59842‘
response2=requests.get(url2cookies=response.cookies)
html2=response2.text
#print(html2)
#正则表达
content=re.findall(r‘{.*}‘html2)[0]
#print(content)
#格式化json
content=json.loads(content)
data_list=content[‘API.CustomizedApi‘][‘itemlist‘][‘auctions‘]
#提取数据
for item in data_list:
    #print(item)
    temp = {
        ‘title‘: item[‘title‘]
        ‘view_price‘: item[‘view_price‘]
        ‘view_sales‘: item[‘view_sales‘]
        ‘view_fee‘: ‘否‘ if float(item[‘view_fee‘]) else ‘是‘
        ‘isTmall‘: ‘是‘ if item[‘shopcard‘][‘isTmall‘]else ‘否‘
        ‘area‘: item[‘item_loc‘]
        ‘name‘: item[‘nick‘]
        ‘detail_url‘: item[‘detail_url‘]
    }
    DATA.append(temp)
#print(len(DATA))
#翻页
cookies=response2.cookies
for i in range(120):
    ktsts=time.time()#时间戳
    _ksTs=‘%s_%s‘%(int(ktsts*1000)str(ktsts)[-3:])
    callback=“jsonp%s“%(int(str(ktsts)[-3:])+1)
    data_value=44*i
    url=‘https://s.taobao.com/search?data-key=s&data-value={}&‘ \
    ‘ajax=true&_ksTS={}&callback={}&q=python&imgfile=&‘ \
    ‘js=1&stats

评论

共有 条评论