• 大小: 7.22MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-09-23
  • 语言: Python
  • 标签: python  爬虫  淘宝  

资源简介

利用python语言实现爬虫代码,对淘宝网上的西装信息进行爬取,并进行可视化和聚类分析

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-
“““
Created on Fri Dec 21 09:39:00 2018

@author: Administrator
“““

from selenium import webdriver
from bs4 import BeautifulSoup
import time
import csv
import re

titlespricesshopssales = [][][][]

#csvFile = open(“xizhuang_women.csv““w“newline=‘‘) # newline=‘‘解决空白行问题
csvFile = open(“xizhuang_men.csv““w“newline=‘‘)
writer = csv.writer(csvFile)
writer.writerow((‘title‘‘price‘‘shop‘‘sale‘))

def getInfo(page):
#    url_women = “https://re.taobao.com/search?&extra=&refpid=420435_1006&keyword=%E8%A5%BF%E8%A3%85%20%E5%A5%B3&_input_charset=utf-8&page=“+str(page)+“&isinner=0&rewriteKeyword“
    url_men = “https://re.taobao.com/search?&extra=&refpid=420435_1006&keyword=%E8%A5%BF%E8%A3%85%20%E7%94%B7&_input_charset=utf-8&page=“+str(page)+“&isinner=0&rewriteKeyword“
    
    #配置headless
    fireFoxOptions = webdriver.FirefoxOptions()
    fireFoxOptions.set_headless() #设置为headless模式
    driver = webdriver.Firefox(firefox_options=fireFoxOptions)
    time.sleep(2)
#    driver.get(url_women)
    driver.get(url_men)
    
    soup = BeautifulSoup(driver.page_source ‘html.parser‘)
    titles = soup.findAll(‘span‘class_=‘title‘)
    prices = soup.findAll(‘span‘class_=‘pricedetail‘)
    shops = soup.findAll(‘span‘class_=‘shopNick‘)
    sales = soup.findAll(‘span‘class_=‘payNum‘)
    print(len(titles))
    for i in range(len(titles)):
        saleNum = re.findall(r“\d+\.?\d*“sales[i].get_text()) #提取销售数量数值
        writer.writerow((titles[i].get_text()prices[i].find(‘strong‘).get_text()shops[i].get_text()‘‘.join(saleNum)))
        
    driver.quit() # 表示关闭浏览器

for page in range(010): # 爬取前10页
    print (“正在爬取第{}页“.format(page))
    getInfo(page)

csvFile.close() # 关闭文件
print(“完成!“)

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-12-31 20:57  taobaoxizhuang\
     目录           0  2018-12-31 20:56  taobaoxizhuang\.spyproject\
     文件          62  2018-12-21 09:37  taobaoxizhuang\.spyproject\codestyle.ini
     文件          64  2018-12-21 09:37  taobaoxizhuang\.spyproject\encoding.ini
     文件          92  2018-12-21 09:37  taobaoxizhuang\.spyproject\vcs.ini
     文件         379  2018-12-24 20:00  taobaoxizhuang\.spyproject\workspace.ini
     文件     9754832  2018-12-22 17:41  taobaoxizhuang\Monaco Yahei.ttf
     文件        1877  2018-12-22 09:36  taobaoxizhuang\cralwer.py
     目录           0  2018-12-31 20:56  taobaoxizhuang\data\
     文件      120255  2018-12-22 13:55  taobaoxizhuang\data\xizhuang_men.csv
     文件      119129  2018-12-22 13:47  taobaoxizhuang\data\xizhuang_women.csv
     文件     1455031  2018-12-22 09:40  taobaoxizhuang\geckodriver.log
     文件        6268  2018-12-24 16:32  taobaoxizhuang\kmeans.py
     目录           0  2018-12-31 20:56  taobaoxizhuang\output\
     文件    19707329  2018-12-24 16:32  taobaoxizhuang\output\Tfidf_Result.txt
     文件         272  2018-12-23 20:01  taobaoxizhuang\output\clusterLabel.txt
     文件      182066  2018-12-24 16:32  taobaoxizhuang\output\jieba.txt
     文件      101494  2018-12-23 20:04  taobaoxizhuang\output\kmeans.png
     文件       23677  2018-12-23 20:01  taobaoxizhuang\output\output.txt
     文件       17939  2018-12-23 14:06  taobaoxizhuang\output\sale_bar.png
     文件        7552  2018-12-23 14:06  taobaoxizhuang\output\sale_box.png
     文件       12296  2018-12-23 16:13  taobaoxizhuang\output\sse.png
     文件      202101  2018-12-23 14:06  taobaoxizhuang\output\wc_men.png
     文件      165727  2018-12-23 14:06  taobaoxizhuang\output\wc_women.png
     文件        7215  2018-12-23 14:06  taobaoxizhuang\picShow.py
     文件         170  2018-12-31 21:00  使用说明.txt

评论

共有 条评论