python淘宝网指定关键词爬取商品信息和评论

大小: 1.03MB

文件类型: .zip

金币: 2

下载: 0 次

发布日期: 2023-08-29
语言: Python
标签: python

高速下载

资源简介

python淘宝网指定关键词爬取商品信息和评论，并用jieba库进行形容词的提取

资源截图

小图大图

代码片段和文件信息

import re
import requests

‘‘‘

获取淘宝指定商品所有评论

自动获取评论页码数

‘‘‘


def main（）:
    # 模拟浏览器访问

    headers = {
        ‘user-agent‘: ‘Mozilla/5.0 （Windows NT 6.1; WOW64） AppleWebKit/537.36 （KHTML like Gecko） ‘
                      ‘Chrome/63.0.3239.132 Safari/537.36‘}

    url = “https://rate.tmall.com/list_detail_rate.htm?itemId=578038447126&spuId=1066034233&sellerId=3961854778&order=3“

    payload = {‘currentPage‘: 1}  # g构建字典传递页码参数到url

    file = open（‘马克杯评论.txt‘ ‘w‘ encoding=‘utf-8‘）

    # 自动获取所有评论页码

    pageNum = re.findall（r‘“lastPage“:[^“]+‘ requests.get（url params=payload headers=headers）.text re.I）

    for page_Num in pageNum:
        last_page = int（page_Num.strip（‘lastPage“:‘））

    for k in range（0 last_page）:

        payload[‘currentPage‘] = k + 1

        resp = requests.get（url params=payload headers=headers）

        resp.encoding = ‘utf-8‘

        # 正则保存所有resp.text的内容，款式，评论内容，评论时间

        sku = re.findall（r‘“auctionSku“:“（[^“]+）“‘ resp.text re.I）

        content = re.findall（r‘“rateContent“:“（[^“]+）“‘ resp.text re.I）

        data = re.findall（r‘“rateDate“:“（[^“]+）“‘ resp.text re.I）

        # 每一页评论的数量

        x = len（content）

        # 把评论数据保存到文件中

        for i in range（0 x）:
            file.write（str（20 * k + i + 1） + ‘款式：‘ + sku[i] + ‘\n‘ + ‘评价内容：‘ + content[i] + ‘\n‘ + ‘日期：‘ + data[i] + ‘\n‘ + ‘\n\n‘）

            print（“正在写入第“ 20 * k + i + 1 “条“）

    file.close（）


if __name__ == ‘__main__‘:
    main（）

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-12-04 17:23  工程项目整合\
     目录           0  2018-12-04 17:22  工程项目整合\一个商品评论信息爬取\
     文件        1772  2018-11-05 09:46  工程项目整合\一个商品评论信息爬取\大英博物馆‘马克杯’评论.py
     文件       24943  2018-12-04 17:20  工程项目整合\一个商品评论信息爬取\马克杯评论.txt
     目录           0  2018-12-04 17:24  工程项目整合\关键词抽取\
     文件         439  2018-12-03 18:52  工程项目整合\关键词抽取\Keyword extraction.py
     文件        1035  2018-12-04 17:16  工程项目整合\关键词抽取\xls转化为txt.py
     文件      954349  2018-12-04 17:15  工程项目整合\关键词抽取\大英博物馆淘宝商品.txt
     文件     1064960  2018-12-03 14:19  工程项目整合\关键词抽取\大英博物馆淘宝商品.xls
     文件          51  2018-12-04 17:17  工程项目整合\关键词抽取\词汇.csv
     目录           0  2018-12-04 17:24  工程项目整合\前100个商品信息和评论爬取\
     文件          98  2018-11-26 14:14  工程项目整合\前100个商品信息和评论爬取\config.txt
     文件        6454  2018-12-03 18:55  工程项目整合\前100个商品信息和评论爬取\da_ying_spider.py
     文件     1101312  2018-11-26 20:45  工程项目整合\前100个商品信息和评论爬取\大英博物馆淘宝商品基本信息.xls

上一篇：Deep Learning in Python
下一篇：DP-means k - means聚类算法的比较

共有条评论

python淘宝网指定关键词爬取商品信息和评论

资源简介

资源截图

代码片段和文件信息

评论

相关资源