资源简介
自己写的基于Python的淘宝评论爬取,并得到商品的图片
代码片段和文件信息
import requests
import re
import io
import sys
import os
import urllib.request
import time
sys.stdout = io.TextIOWrapper(sys.stdout.bufferencoding=‘gb18030‘)
headers={“User-Agent“:“Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Trident/4.0;SE2.XmetaSr1.0;SE2.XmetaSr1.0;.NETCLR2.0.50727;SE2.XmetaSr1.0)“}
def getHTMLText(url):
#得到商品的html
try:
r = requests.get(urlheaders=headerstimeout=30)
return r.text
except:
return ““
def parsePage(url):
#得到商品的list
infoList=[];
html=getHTMLText(url)
#print(html)
plt = re.findall(‘view_price“:“([\s\S]*?)“‘ html)
tlt = re.findall(‘raw_title“:“([\s\S]*?)“‘ html)
clt = re.findall(‘view_sales“:“([\s\S]*?)“‘html)
ilt = re.findall(‘nid“:“([\s\S]*?)“‘html)
photolt=re.findall(‘pic_url“:“([\s\S]*?)“‘html)
for i in range(len(plt)):
price =plt[i]
title = tlt[i]
customer = clt[i]
id = ilt[i]
photo=photolt[i]
infoList.append([pricetitlecustomeridphoto])
printGoodsList(infoList)
def GetComment(goods_filenameurlitemId):
#得到某个商品评论放入商品的文件夹中
web_data=requests.get(urlheaders=headers);
goods_filename=goods_filename.replace(“?“““).replace(“、“““).replace(“\\“““).replace(“*“““).replace(“““““).replace(“”“““).replace(“<“““).replace(“>“““).replace(“|“““).replace(‘/‘‘‘)
itemId=itemId
#print(web_data.text)
spuId=re.search(‘spuId=([0-9]*)‘web_data.text).group(1);
sellerId=re.search(‘sellerId=([0-9]*)‘web_data.text).group(1)
#得到店家Id商品Id商铺
time.sleep(3);
comment_url=str(“https://rate.tmall.com/list_detail_rate.htm?itemId=“+itemId+“&spuId=“+spuId+“&sellerId=“+sellerId+“&order=3¤tPage=1&append=0&content=1“)
web_data=requests.get(comment_urlheaders=headers);
f=open(‘E:\\淘宝爬取内容\\‘+goods_filename+“/pinglun.txt““w“)
#print(web_data.text)
try:
comment_num=re.search(‘lastPage“:([0-9]*)‘web_data.text).group(1)
#得到评论的页数
if(int(comment_num)>3):
for n in range(13):
comment_url=str(“https://rate.tmall.com/list_detail_rate.htm?itemId=“+itemId+“&spuId=“+spuId+“&sellerId=“+sellerId+“&order=3¤
相关资源
- KMeans python 代码
- py新浪微博爬虫通过修改最后的uid值即
- python基础教程第三版源代码
- PCV---python工具包.zip
- 去停用词、测试数据
- 高效爬取微博数据python3实现
- 基于vggnet卷积神经网络的图像风格迁
- pyton 实现学生信息管理系统
- 数字图像处理Python制作简易软件系统
- Python爬取b站视频弹幕并可视化案例
- python实现类似于QQ或MSN的聊天系统
- sm4国密算法python实现
- python面试题100道
- python_docx-0.8.10-py2.py3-none-any.whl
- python3.4中文学习手册chm
- python 2.7中文手册chm版
- 产生式系统包含动物识别规则库,手
- 数据挖掘教学视频实战超详细加pyth
- python实现KNN手写字体识别Demo
- python q-learning
- python3网络爬虫与开发实战崔庆才PDF百
- python语言实现通过树莓派Pi camera的图
- 扫雷 python
- python习题
- ngramScore适应度计算文件(包含引入的
- 爱鲜蜂项目源码
- python300G视频书籍教程.zip
- Python点餐案例
- apriori python 3
- Python-Django搭建简单网站源码
评论
共有 条评论