资源简介
爬取京东评论文本,一个商品只能获取1000条评论。很简单的代码,仅供参考。使用爬虫请遵守爬虫协议
代码片段和文件信息
# -*- coding: utf-8 -*-
import requests
import json
import re
import time
target = requests.get(‘http://5555yxy.xyz‘)
urltarget = ‘http://5555yxy.xyz‘
def commentpage_get(url):
global target
headers_ = {
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/68.0.3440.106 Safari/537.36‘
}
r = requests.get(url headers=headers_)
r.encoding = ‘gbk‘
data = r.text
data.encode(‘utf-8‘)
data = data[27:-2]
target = data
# data = re.match(r“^.*?(\{.*\})\)\s*$“ data)
return data
def get_comment(product_id page_size comment_num sort_type):
if (page_size != 1):
page_num = int(comment_num) / int(page_size) + 1
page_num = int(page_num)
i = int(comment_num) % int(page_size)
else:
page_num = comment_num + 1
i = 0
url = ‘https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv15688&productId=‘ + \
str(product_id)+‘&score=0&sortType=‘+str(sort_type)+‘&page=‘ + \
str(page_num)+‘&pageSize=‘+str(page_size)+‘&isShadowSku=0&fold=1‘
print(url)
global target
global urltarget
if (urltarget == url):
data = target
flag = 1
else:
data = commentpage_get(url)
urltarget = url
- 上一篇:迷宫问题的A*算法(python实现)
- 下一篇:遗传算法python代码
相关资源
- 二级考试python试题12套(包括选择题和
- pywin32_python3.6_64位
- python+ selenium教程
- PycURL(Windows7/Win32)Python2.7安装包 P
- 英文原版-Scientific Computing with Python
- 7.图像风格迁移 基于深度学习 pyt
- 基于Python的学生管理系统
- A Byte of Python(简明Python教程)(第
- Python实例174946
- Python 人脸识别
- Python 人事管理系统
- 基于python-flask的个人博客系统
- 计算机视觉应用开发流程
- python 调用sftp断点续传文件
- python socket游戏
- 基于Python爬虫爬取天气预报信息
- python函数编程和讲解
- Python开发的个人博客
- 基于python的三层神经网络模型搭建
- python实现自动操作windows应用
- python人脸识别(opencv)
- python 绘图(方形、线条、圆形)
- python疫情卡UN管控
- python 连连看小游戏源码
- 基于PyQt5的视频播放器设计
- 一个简单的python爬虫
- csv文件行列转换python实现代码
- Python操作Mysql教程手册
- Python Machine Learning Case Studies
- python获取硬件信息
评论
共有 条评论