资源简介
python淘宝网指定关键词爬取商品信息和评论,并用jieba库进行形容词的提取
代码片段和文件信息
import re
import requests
‘‘‘
获取淘宝指定商品所有评论
自动获取评论页码数
‘‘‘
def main():
# 模拟浏览器访问
headers = {
‘user-agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) ‘
‘Chrome/63.0.3239.132 Safari/537.36‘}
url = “https://rate.tmall.com/list_detail_rate.htm?itemId=578038447126&spuId=1066034233&sellerId=3961854778&order=3“
payload = {‘currentPage‘: 1} # g构建字典传递页码参数到url
file = open(‘马克杯评论.txt‘ ‘w‘ encoding=‘utf-8‘)
# 自动获取所有评论页码
pageNum = re.findall(r‘“lastPage“:[^“]+‘ requests.get(url params=payload headers=headers).text re.I)
for page_Num in pageNum:
last_page = int(page_Num.strip(‘lastPage“:‘))
for k in range(0 last_page):
payload[‘currentPage‘] = k + 1
resp = requests.get(url params=payload headers=headers)
resp.encoding = ‘utf-8‘
# 正则保存所有resp.text的内容,款式,评论内容,评论时间
sku = re.findall(r‘“auctionSku“:“([^“]+)“‘ resp.text re.I)
content = re.findall(r‘“rateContent“:“([^“]+)“‘ resp.text re.I)
data = re.findall(r‘“rateDate“:“([^“]+)“‘ resp.text re.I)
# 每一页评论的数量
x = len(content)
# 把评论数据保存到文件中
for i in range(0 x):
file.write(str(20 * k + i + 1) + ‘款式:‘ + sku[i] + ‘\n‘ + ‘评价内容:‘ + content[i] + ‘\n‘ + ‘日期:‘ + data[i] + ‘\n‘ + ‘\n\n‘)
print(“正在写入第“ 20 * k + i + 1 “条“)
file.close()
if __name__ == ‘__main__‘:
main()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2018-12-04 17:23 工程项目整合\
目录 0 2018-12-04 17:22 工程项目整合\一个商品评论信息爬取\
文件 1772 2018-11-05 09:46 工程项目整合\一个商品评论信息爬取\大英博物馆‘马克杯’评论.py
文件 24943 2018-12-04 17:20 工程项目整合\一个商品评论信息爬取\马克杯评论.txt
目录 0 2018-12-04 17:24 工程项目整合\关键词抽取\
文件 439 2018-12-03 18:52 工程项目整合\关键词抽取\Keyword extraction.py
文件 1035 2018-12-04 17:16 工程项目整合\关键词抽取\xls转化为txt.py
文件 954349 2018-12-04 17:15 工程项目整合\关键词抽取\大英博物馆淘宝商品.txt
文件 1064960 2018-12-03 14:19 工程项目整合\关键词抽取\大英博物馆淘宝商品.xls
文件 51 2018-12-04 17:17 工程项目整合\关键词抽取\词汇.csv
目录 0 2018-12-04 17:24 工程项目整合\前100个商品信息和评论爬取\
文件 98 2018-11-26 14:14 工程项目整合\前100个商品信息和评论爬取\config.txt
文件 6454 2018-12-03 18:55 工程项目整合\前100个商品信息和评论爬取\da_ying_spider.py
文件 1101312 2018-11-26 20:45 工程项目整合\前100个商品信息和评论爬取\大英博物馆淘宝商品基本信息.xls
相关资源
- Deep Learning in Python
- 深度学习Theano教程,python语言
- Python学习实践-sklearn分类算法实践-M
- SVM解兵王问题_python.zip
- 学生成绩管理系统.zip
- 随机信号处理之 经典法谱估计MATLAB和
- 基于django的个人博客
- 基于arcgis的Python工具箱
- python人脸识别
- 利用摄像头拍照并保存照片程序pyth
- webUI自动化测试框架(Python+selenium)
- python tricks51426
- python && gdal开发文档
- Python金融分析与风险管理-配套彩图和
- 北京市交通路网拥堵指数分析
- Python爬取猫眼豆瓣数据
- 《Python Cookbook》第三版中文v1.0.2.mob
- pycharm+python环境配置步骤+简单UI界面代
- 小甲鱼《零基础入门学python》课后习
- 3DMM人脸模型匹配
- python爬虫爬取豆瓣评分数据
- scikit_learn-0.20.0-cp27-cp27m-win_amd64.whl
- 鱼cpython课后练习
- 登录界面的多人多聊天室
- turtle作图作品
- 利用python做的一个简单爬虫程序,可
- Python网络数据采集(高清完整高清完
- python数据结构与算法 pdf 高清
- 百分百汉化Python2与Python3的中文版AP
- 淘宝天猫京东电脑抢拍器,自动校准
评论
共有 条评论