python实现淘宝爬虫

大小: 7.22MB

文件类型: .zip

金币: 2

下载: 0 次

发布日期: 2023-09-23
语言: Python
标签: python 爬虫淘宝

高速下载

资源简介

利用python语言实现爬虫代码，对淘宝网上的西装信息进行爬取，并进行可视化和聚类分析

资源截图

小图大图

代码片段和文件信息

# -*- coding: utf-8 -*-
“““
Created on Fri Dec 21 09:39:00 2018

@author: Administrator
“““

from selenium import webdriver
from bs4 import BeautifulSoup
import time
import csv
import re

titlespricesshopssales = [][][][]

#csvFile = open（“xizhuang_women.csv““w“newline=‘‘） # newline=‘‘解决空白行问题
csvFile = open（“xizhuang_men.csv““w“newline=‘‘）
writer = csv.writer（csvFile）
writer.writerow（（‘title‘‘price‘‘shop‘‘sale‘））

def getInfo（page）:
#    url_women = “https://re.taobao.com/search?&extra=&refpid=420435_1006&keyword=%E8%A5%BF%E8%A3%85%20%E5%A5%B3&_input_charset=utf-8&page=“+str（page）+“&isinner=0&rewriteKeyword“
    url_men = “https://re.taobao.com/search?&extra=&refpid=420435_1006&keyword=%E8%A5%BF%E8%A3%85%20%E7%94%B7&_input_charset=utf-8&page=“+str（page）+“&isinner=0&rewriteKeyword“
    
    #配置headless
    fireFoxOptions = webdriver.FirefoxOptions（）
    fireFoxOptions.set_headless（） #设置为headless模式
    driver = webdriver.Firefox（firefox_options=fireFoxOptions）
    time.sleep（2）
#    driver.get（url_women）
    driver.get（url_men）
    
    soup = BeautifulSoup（driver.page_source ‘html.parser‘）
    titles = soup.findAll（‘span‘class_=‘title‘）
    prices = soup.findAll（‘span‘class_=‘pricedetail‘）
    shops = soup.findAll（‘span‘class_=‘shopNick‘）
    sales = soup.findAll（‘span‘class_=‘payNum‘）
    print（len（titles））
    for i in range（len（titles））:
        saleNum = re.findall（r“\d+\.?\d*“sales[i].get_text（）） #提取销售数量数值
        writer.writerow（（titles[i].get_text（）prices[i].find（‘strong‘）.get_text（）shops[i].get_text（）‘‘.join（saleNum）））
        
    driver.quit（） # 表示关闭浏览器

for page in range（010）: # 爬取前10页
    print （“正在爬取第{}页“.format（page））
    getInfo（page）

csvFile.close（） # 关闭文件
print（“完成！“）

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-12-31 20:57  taobaoxizhuang\
     目录           0  2018-12-31 20:56  taobaoxizhuang\.spyproject\
     文件          62  2018-12-21 09:37  taobaoxizhuang\.spyproject\codestyle.ini
     文件          64  2018-12-21 09:37  taobaoxizhuang\.spyproject\encoding.ini
     文件          92  2018-12-21 09:37  taobaoxizhuang\.spyproject\vcs.ini
     文件         379  2018-12-24 20:00  taobaoxizhuang\.spyproject\workspace.ini
     文件     9754832  2018-12-22 17:41  taobaoxizhuang\Monaco Yahei.ttf
     文件        1877  2018-12-22 09:36  taobaoxizhuang\cralwer.py
     目录           0  2018-12-31 20:56  taobaoxizhuang\data\
     文件      120255  2018-12-22 13:55  taobaoxizhuang\data\xizhuang_men.csv
     文件      119129  2018-12-22 13:47  taobaoxizhuang\data\xizhuang_women.csv
     文件     1455031  2018-12-22 09:40  taobaoxizhuang\geckodriver.log
     文件        6268  2018-12-24 16:32  taobaoxizhuang\kmeans.py
     目录           0  2018-12-31 20:56  taobaoxizhuang\output\
     文件    19707329  2018-12-24 16:32  taobaoxizhuang\output\Tfidf_Result.txt
     文件         272  2018-12-23 20:01  taobaoxizhuang\output\clusterLabel.txt
     文件      182066  2018-12-24 16:32  taobaoxizhuang\output\jieba.txt
     文件      101494  2018-12-23 20:04  taobaoxizhuang\output\kmeans.png
     文件       23677  2018-12-23 20:01  taobaoxizhuang\output\output.txt
     文件       17939  2018-12-23 14:06  taobaoxizhuang\output\sale_bar.png
     文件        7552  2018-12-23 14:06  taobaoxizhuang\output\sale_box.png
     文件       12296  2018-12-23 16:13  taobaoxizhuang\output\sse.png
     文件      202101  2018-12-23 14:06  taobaoxizhuang\output\wc_men.png
     文件      165727  2018-12-23 14:06  taobaoxizhuang\output\wc_women.png
     文件        7215  2018-12-23 14:06  taobaoxizhuang\picShow.py
     文件         170  2018-12-31 21:00  使用说明.txt

共有条评论

python实现淘宝爬虫

资源简介

资源截图

代码片段和文件信息

评论

相关资源