资源简介
爬取京东评论文本,一个商品只能获取1000条评论。很简单的代码,仅供参考。使用爬虫请遵守爬虫协议
代码片段和文件信息
# -*- coding: utf-8 -*-
import requests
import json
import re
import time
target = requests.get(‘http://5555yxy.xyz‘)
urltarget = ‘http://5555yxy.xyz‘
def commentpage_get(url):
global target
headers_ = {
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/68.0.3440.106 Safari/537.36‘
}
r = requests.get(url headers=headers_)
r.encoding = ‘gbk‘
data = r.text
data.encode(‘utf-8‘)
data = data[27:-2]
target = data
# data = re.match(r“^.*?(\{.*\})\)\s*$“ data)
return data
def get_comment(product_id page_size comment_num sort_type):
if (page_size != 1):
page_num = int(comment_num) / int(page_size) + 1
page_num = int(page_num)
i = int(comment_num) % int(page_size)
else:
page_num = comment_num + 1
i = 0
url = ‘https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv15688&productId=‘ + \
str(product_id)+‘&score=0&sortType=‘+str(sort_type)+‘&page=‘ + \
str(page_num)+‘&pageSize=‘+str(page_size)+‘&isShadowSku=0&fold=1‘
print(url)
global target
global urltarget
if (urltarget == url):
data = target
flag = 1
else:
data = commentpage_get(url)
urltarget = url
- 上一篇:迷宫问题的A*算法(python实现)
- 下一篇:遗传算法python代码
相关资源
- 遗传算法python代码
- 迷宫问题的A*算法(python实现)
- Mod_Python2.7安装文件
- 王硕-你也能看懂的python算法书-随书代
- 使用Python实现的网络社团发现GN算法
- python3的ARP简单攻击脚本
- 详解python实现FP-TREE进行关联规则挖掘
- Python 正则表达式操作指南 Regular ex<
- k匿名隐私保护算法python版
- Python人工智能AI深度学习全套课程.t
- python实现的使用huffman编码对文本的压
- 爬取58同城
- python提取点云数据
- 千锋python爬虫教程之scrapy框架.txt
- Python教学视频哪个好
- 小甲鱼python课程96集包含源码+课件+课
- 小甲鱼python课程96集含源码课件课后习
- Python从入门到精通教程共40G.txt
- python与json
- python的BFS,DFS,UCS,A星算法
- 决策树预测获胜NBA球队
- python图像数据增强
- [python]天气预报附带gui界面
- 基于GDAL的Python实现遥感影像PCA的代码
- Openmv主控物料分拣小车拣乒乓球小车
- Openmv主控物料分拣小车拣乒乓球小车
- SVM人脸识别的Python代码
- Python代码王者荣耀全皮肤图片
- Anaconda Python3.6 安装包32bit +64bit
- python3实现word转txt
评论
共有 条评论