资源简介
该脚本实现了自动下载百度文库文档,但缺点是需要企业账号,不能任意下载任意文档,所以仅供学习python脚本使用。使用方法是:运行软件,输入要下载的文档的地址,它就会自动下载
代码片段和文件信息
# coding:utf-8
import io
import re
import sys
import json
import requests
from lxml import etree
sys.stdout = io.TextIOWrapper(sys.stdout.bufferencoding=“utf8“)
class BaikuSpider(object):
“““docstring for BaikuSpider“““
def __init__(self):
self.url = “https://wenku.baidu.com/view/6b2016c49ec3d5bbfd0a742d.html“
self.headers = {“User-Agent“: “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/67.0.3396.99 Safari/537.36“
“Origin“: “https://wenku.baidu.com“
“Referer“: “https://wenku.baidu.com/view/c20e5ad684254b35eefd3402.html“
}
self.downloadUrl = ““
self.data = {}
self.name = ““
def parse_url(selfurl):
response = requests.get(urlheaders=self.headers)
return response.content.decode(“gb2312““ignore“)
def init_post(selfstr_content):
html = etree.HTML(str_content)
doc_id = re.search(r‘view/(\S*)\.html$‘self.url).group(1)
downloadToken = html.xpath(“//form/input[@name=‘downloadToken‘]/@value“)
sz = html.xpath(“//form/input[@name=‘sz‘]/@value“)
storage = html.xpath(“//form/input[@name=‘storage‘]/@value“)
retType = html.xpath(“//form/input[@name=‘retType‘]/@value“)
ct = html.xpath(“//form/input[@name=‘ct‘]/@value“)
useTicket = html.xpath(“//form/input[@name=‘useTicket‘]/@value“)
target_uticket_num = html.xpath(“//form/input[@name=‘target_uticket_num‘]/@value“)
v_code = html.xpath(“//form/input[@name=‘v_code
相关资源
- python实现SGBM图像匹配算法
- python实现灰度直方图均衡化
- scrapy_qunar_one
- Python学习全系列教程永久可用
- python简明教程.chm
- 抽奖大转盘python的图形化界面
- 双边滤波器实验报告及代码python
- python +MYSQL+HTML实现21蛋糕网上商城
- Python-直播答题助手自动检测出题搜索
- OpenCV入门教程+OpenCV官方教程中文版
- Python 串口工具源码+.exe文件
- Python开发的全栈股票系统.zip
- Python操作Excel表格并将其中部分数据写
- python书籍 PDF
- 利用python绘制散点图
- python+labview+No1.vi
- 老男孩python项目实战
- python源码制作whl文件.rar
- python3.5可用的scipy
- PYTHON3 经典50案例.pptx
- 计算机科学导论-python.pdf
- python模拟鼠标点击屏幕
- windows鼠标自动点击py脚本
- 鱼c小甲鱼零基础学python全套课后题和
- Python 练习题100道
- Practical Programming 2nd Edition
- wxPython Application Development Cookbook
- python 3.6
- Python 3.5.2 中文文档 互联网唯一CHM版本
- python3.5.2.chm官方文档
评论
共有 条评论