资源简介
利用python3以及scrapy爬虫框架编写的淘宝模拟登陆抓取店铺后台数据的一个项目。其中最主要的就是解决了淘宝的模拟登陆问题,为后面数据的抓取提供了很大的方便。
代码片段和文件信息
# -*- coding: utf-8 -*-
import time
import scrapy
import json
from Tesoridoriente.items import TesoridorienteItem
class TesoridorienteSpider(scrapy.Spider):
# 爬虫名
name = ‘tesoridoriente‘
# 爬虫允许的域
allowed_domains = [“taobao.com“ “passport.alibaba.com“]
# 爬虫进行模拟登录的url
login_url = ‘https://login.taobao.com/member/login.jhtml‘
# 爬虫要抓取数据的url
crawl_url = ‘https://sycm.taobao.com/portal/live/overview.json‘
# 构建请求头
headers = {
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/62.0.3202.89 Safari/537.36‘
‘Content-Type‘: ‘application/x-www-form-urlencoded‘
‘Connection‘: ‘Keep-Alive‘
}
# 模拟登录需要提交的用户名
username = ‘tesoridoriente海外旗舰店:技术‘
# 构建模拟登录需要提
评论
共有 条评论