资源简介
关于小说的简易爬虫,仅供大家进行学习参考,有问题可以一块讨论
代码片段和文件信息
import requests
from bs4 import BeautifulSoup
import sys
import time
class download(object):
def __init__(self):
self.server = ‘https://www.biqukan.com‘
self.target = ‘https://www.biqukan.com/1_1094/‘
self.names = []
self.nums = 0
self.urls = []
self.headers = { ‘Accept‘: ‘text/htmlapplication/xhtml+xmlapplication/xml;q=0.9*/*;q=0.8‘
‘Accept-Encoding‘: ‘gzip deflate br‘
‘Accept-Language‘: ‘zh-CNzh;q=0.8en-US;q=0.5en;q=0.3‘
‘Connection‘: ‘keep-alive‘
‘user-agent‘: ‘Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/44.0.2403.157 Safari/537.36‘
}
“““
函数说明:获取下载链接
Parameter:
无
Return:
无
Modify:
2018-12-08
“““
def get_download_url(self):
req = requests.get(self.targetheaders = self.headers)
html = req.text
div_bf = BeautifulSoup(html‘html5lib‘)
div = div_bf.find_all(‘div‘class_=‘listmain‘)
a_bf = BeautifulSoup(str(div[0])‘html5lib‘)
a = a_bf.find_all(‘a‘)
self.nums = len(a[15:])
for each in a[15:]:
if each.string==“正文“ or each.string==“正文卷“:
continue
self.names.append(each.string)
self.urls.append(self.server+each.get(‘href‘))
“““
函数说明:获取章节内容
Parmeters:
target - 下载链接(string)
Returns:
texts - 章节内容(string)
Modify:
2018-12-08
相关资源
- python实现SGBM图像匹配算法
- python实现灰度直方图均衡化
- scrapy_qunar_one
- Python学习全系列教程永久可用
- python简明教程.chm
- 抽奖大转盘python的图形化界面
- 双边滤波器实验报告及代码python
- python +MYSQL+HTML实现21蛋糕网上商城
- Python-直播答题助手自动检测出题搜索
- OpenCV入门教程+OpenCV官方教程中文版
- Python 串口工具源码+.exe文件
- Python开发的全栈股票系统.zip
- Python操作Excel表格并将其中部分数据写
- python书籍 PDF
- 利用python绘制散点图
- python+labview+No1.vi
- 老男孩python项目实战
- python源码制作whl文件.rar
- python3.5可用的scipy
- PYTHON3 经典50案例.pptx
- 计算机科学导论-python.pdf
- python模拟鼠标点击屏幕
- windows鼠标自动点击py脚本
- 鱼c小甲鱼零基础学python全套课后题和
- Python 练习题100道
- Practical Programming 2nd Edition
- wxPython Application Development Cookbook
- python 3.6
- Python 3.5.2 中文文档 互联网唯一CHM版本
- python3.5.2.chm官方文档
评论
共有 条评论