• 大小: 1.03MB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2023-08-29
  • 语言: Python
  • 标签: python  

资源简介

python淘宝网指定关键词爬取商品信息和评论,并用jieba库进行形容词的提取

资源截图

代码片段和文件信息

import re
import requests

‘‘‘

获取淘宝指定商品所有评论

自动获取评论页码数

‘‘‘


def main():
    # 模拟浏览器访问

    headers = {
        ‘user-agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) ‘
                      ‘Chrome/63.0.3239.132 Safari/537.36‘}

    url = “https://rate.tmall.com/list_detail_rate.htm?itemId=578038447126&spuId=1066034233&sellerId=3961854778&order=3“

    payload = {‘currentPage‘: 1}  # g构建字典传递页码参数到url

    file = open(‘马克杯评论.txt‘ ‘w‘ encoding=‘utf-8‘)

    # 自动获取所有评论页码

    pageNum = re.findall(r‘“lastPage“:[^“]+‘ requests.get(url params=payload headers=headers).text re.I)

    for page_Num in pageNum:
        last_page = int(page_Num.strip(‘lastPage“:‘))

    for k in range(0 last_page):

        payload[‘currentPage‘] = k + 1

        resp = requests.get(url params=payload headers=headers)

        resp.encoding = ‘utf-8‘

        # 正则保存所有resp.text的内容,款式,评论内容,评论时间

        sku = re.findall(r‘“auctionSku“:“([^“]+)“‘ resp.text re.I)

        content = re.findall(r‘“rateContent“:“([^“]+)“‘ resp.text re.I)

        data = re.findall(r‘“rateDate“:“([^“]+)“‘ resp.text re.I)

        # 每一页评论的数量

        x = len(content)

        # 把评论数据保存到文件中

        for i in range(0 x):
            file.write(str(20 * k + i + 1) + ‘款式:‘ + sku[i] + ‘\n‘ + ‘评价内容:‘ + content[i] + ‘\n‘ + ‘日期:‘ + data[i] + ‘\n‘ + ‘\n\n‘)

            print(“正在写入第“ 20 * k + i + 1 “条“)

    file.close()


if __name__ == ‘__main__‘:
    main()




 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2018-12-04 17:23  工程项目整合\
     目录           0  2018-12-04 17:22  工程项目整合\一个商品评论信息爬取\
     文件        1772  2018-11-05 09:46  工程项目整合\一个商品评论信息爬取\大英博物馆‘马克杯’评论.py
     文件       24943  2018-12-04 17:20  工程项目整合\一个商品评论信息爬取\马克杯评论.txt
     目录           0  2018-12-04 17:24  工程项目整合\关键词抽取\
     文件         439  2018-12-03 18:52  工程项目整合\关键词抽取\Keyword extraction.py
     文件        1035  2018-12-04 17:16  工程项目整合\关键词抽取\xls转化为txt.py
     文件      954349  2018-12-04 17:15  工程项目整合\关键词抽取\大英博物馆淘宝商品.txt
     文件     1064960  2018-12-03 14:19  工程项目整合\关键词抽取\大英博物馆淘宝商品.xls
     文件          51  2018-12-04 17:17  工程项目整合\关键词抽取\词汇.csv
     目录           0  2018-12-04 17:24  工程项目整合\前100个商品信息和评论爬取\
     文件          98  2018-11-26 14:14  工程项目整合\前100个商品信息和评论爬取\config.txt
     文件        6454  2018-12-03 18:55  工程项目整合\前100个商品信息和评论爬取\da_ying_spider.py
     文件     1101312  2018-11-26 20:45  工程项目整合\前100个商品信息和评论爬取\大英博物馆淘宝商品基本信息.xls

评论

共有 条评论