资源简介
python淘宝网指定关键词爬取商品信息和评论,并用jieba库进行形容词的提取

代码片段和文件信息
import re
import requests
‘‘‘
获取淘宝指定商品所有评论
自动获取评论页码数
‘‘‘
def main():
# 模拟浏览器访问
headers = {
‘user-agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) ‘
‘Chrome/63.0.3239.132 Safari/537.36‘}
url = “https://rate.tmall.com/list_detail_rate.htm?itemId=578038447126&spuId=1066034233&sellerId=3961854778&order=3“
payload = {‘currentPage‘: 1} # g构建字典传递页码参数到url
file = open(‘马克杯评论.txt‘ ‘w‘ encoding=‘utf-8‘)
# 自动获取所有评论页码
pageNum = re.findall(r‘“lastPage“:[^“]+‘ requests.get(url params=payload headers=headers).text re.I)
for page_Num in pageNum:
last_page = int(page_Num.strip(‘lastPage“:‘))
for k in range(0 last_page):
payload[‘currentPage‘] = k + 1
resp = requests.get(url params=payload headers=headers)
resp.encoding = ‘utf-8‘
# 正则保存所有resp.text的内容,款式,评论内容,评论时间
sku = re.findall(r‘“auctionSku“:“([^“]+)“‘ resp.text re.I)
content = re.findall(r‘“rateContent“:“([^“]+)“‘ resp.text re.I)
data = re.findall(r‘“rateDate“:“([^“]+)“‘ resp.text re.I)
# 每一页评论的数量
x = len(content)
# 把评论数据保存到文件中
for i in range(0 x):
file.write(str(20 * k + i + 1) + ‘款式:‘ + sku[i] + ‘\n‘ + ‘评价内容:‘ + content[i] + ‘\n‘ + ‘日期:‘ + data[i] + ‘\n‘ + ‘\n\n‘)
print(“正在写入第“ 20 * k + i + 1 “条“)
file.close()
if __name__ == ‘__main__‘:
main()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2018-12-04 17:23 工程项目整合\
目录 0 2018-12-04 17:22 工程项目整合\一个商品评论信息爬取\
文件 1772 2018-11-05 09:46 工程项目整合\一个商品评论信息爬取\大英博物馆‘马克杯’评论.py
文件 24943 2018-12-04 17:20 工程项目整合\一个商品评论信息爬取\马克杯评论.txt
目录 0 2018-12-04 17:24 工程项目整合\关键词抽取\
文件 439 2018-12-03 18:52 工程项目整合\关键词抽取\Keyword extraction.py
文件 1035 2018-12-04 17:16 工程项目整合\关键词抽取\xls转化为txt.py
文件 954349 2018-12-04 17:15 工程项目整合\关键词抽取\大英博物馆淘宝商品.txt
文件 1064960 2018-12-03 14:19 工程项目整合\关键词抽取\大英博物馆淘宝商品.xls
文件 51 2018-12-04 17:17 工程项目整合\关键词抽取\词汇.csv
目录 0 2018-12-04 17:24 工程项目整合\前100个商品信息和评论爬取\
文件 98 2018-11-26 14:14 工程项目整合\前100个商品信息和评论爬取\config.txt
文件 6454 2018-12-03 18:55 工程项目整合\前100个商品信息和评论爬取\da_ying_spider.py
文件 1101312 2018-11-26 20:45 工程项目整合\前100个商品信息和评论爬取\大英博物馆淘宝商品基本信息.xls
相关资源
- 二级考试python试题12套(包括选择题和
- pywin32_python3.6_64位
- python+ selenium教程
- PycURL(Windows7/Win32)Python2.7安装包 P
- 英文原版-Scientific Computing with Python
- 7.图像风格迁移 基于深度学习 pyt
- 基于Python的学生管理系统
- A Byte of Python(简明Python教程)(第
- Python实例174946
- Python 人脸识别
- Python 人事管理系统
- 基于python-flask的个人博客系统
- 计算机视觉应用开发流程
- python 调用sftp断点续传文件
- python socket游戏
- 基于Python爬虫爬取天气预报信息
- python函数编程和讲解
- Python开发的个人博客
- 基于python的三层神经网络模型搭建
- python实现自动操作windows应用
- python人脸识别(opencv)
- python 绘图(方形、线条、圆形)
- python疫情卡UN管控
- python 连连看小游戏源码
- 基于PyQt5的视频播放器设计
- 一个简单的python爬虫
- csv文件行列转换python实现代码
- Python操作Mysql教程手册
- Python Machine Learning Case Studies
- python获取硬件信息
评论
共有 条评论