• 大小: 2.05KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-01-30
  • 语言: Python
  • 标签: 实例  python  爬虫  

资源简介

python爬取淘宝商品新信息,如果出现乱码,请加上如下代码:

import sys
reload(sys)
sys.setdefaultencoding('utf8')


资源截图

代码片段和文件信息

#coding=utf-8
# 根据输入的关键字查询淘宝商品数据
# 淘宝编码是gbk
import re
import requests

url = ‘https://s.taobao.com/search‘
sp = input(‘请输入查询商品:‘)
page_num = input(‘请输入查询页码(以逗号隔开):‘)
ll = page_num.split(‘‘)
if len(ll) == 2 :
    pass
elif len(ll) < 2:
    raise ValueError(‘请输入查询页码信息格式如下:12‘)

payload = {‘q‘: sp‘s‘: ‘1‘‘ie‘:‘utf8‘}  #字典传递url参数
# file = open(‘taobao_test.txt‘‘w‘encoding=‘utf-8‘)

for k in range(int(ll[0])int(ll[1])):        #100次,就是100个页的商品数据
# for k in range(int(1)100):
    payload [‘s‘] = 44*k+1   #此处改变的url参数为s,s为1时第一页,s为45是第二页,89时第三页以此类推                          
    resp = requests.get(url params = payload)
    print((resp.url))          #打印访问的网址
    resp.encoding = ‘utf-8‘  #设置编码
    print(resp.text)
    title = re.findall(r‘“raw_title“:“([^“]+)“‘resp

评论

共有 条评论