资源简介
自己练手的代码,爬虫小程序,爬一些鬼故事。。。自己练手的代码,爬虫小程序,爬一些鬼故事。。。自己练手的代码,爬虫小程序,爬一些鬼故事。。。自己练手的代码,爬虫小程序,爬一些鬼故事。。。
代码片段和文件信息
import requests
from lxml import etree
import pymysql
import time
class kunbubooks(object):
def __init__(self):
# self.URL = “http://www.bestgushi.com/o/kongbu/index.html“
self.headers = {‘User-Agent‘:‘Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)‘}
# 创建数据库连接对象与游标对象
# self.db = pymysql.connect(‘localhost‘
# ‘root‘
# ‘123456‘
# ‘gushi‘
# charset=‘utf8‘)
# self.cursor = self.db.cursor()
def bookurllist(selfURL):
# 请求三步
res = requests.get(URLheaders=self.headers)
res.encoding = ‘gbk‘
html = res.text
parseHtml = etree.HTML(html)
# 找出一页中所有故事的链接
books = parseHtml.xpath(“//div[@class=‘gs‘]/h3/a/@href|//div[@class=‘gs yt‘]/h3/a/@href“)
for b in books:
self.book(b) #循环遍历每个故事链接,调用并交给book函数
def book(selfb):
res = requests.get(bheaders=self.headers)
res.encoding = ‘gbk‘ #文中有些是gb2312解不出来的,所以要用到gbk
html = res.text
parseHtml = etree.HTML(html)
book = parseHtml.xpath(“//div[@id=‘zzzxcwqsdas‘]//p//text()“) #得到故事内容列表
bookname = parseHtml.xpath(“//div[@class=‘gushi‘]/h1/a/text()“) #得到故事名
for x in range(250):
y = b[:-5] + ‘_‘ + str(x) + ‘.html‘ #拼接每个故事页面中的分页链接
# 循环请求分页链接
res1 = requests
相关资源
- python实现SGBM图像匹配算法
- python实现灰度直方图均衡化
- scrapy_qunar_one
- Python学习全系列教程永久可用
- python简明教程.chm
- 抽奖大转盘python的图形化界面
- 双边滤波器实验报告及代码python
- python +MYSQL+HTML实现21蛋糕网上商城
- Python-直播答题助手自动检测出题搜索
- OpenCV入门教程+OpenCV官方教程中文版
- Python 串口工具源码+.exe文件
- Python开发的全栈股票系统.zip
- Python操作Excel表格并将其中部分数据写
- python书籍 PDF
- 利用python绘制散点图
- python+labview+No1.vi
- 老男孩python项目实战
- python源码制作whl文件.rar
- python3.5可用的scipy
- PYTHON3 经典50案例.pptx
- 计算机科学导论-python.pdf
- python模拟鼠标点击屏幕
- windows鼠标自动点击py脚本
- 鱼c小甲鱼零基础学python全套课后题和
- Python 练习题100道
- Practical Programming 2nd Edition
- wxPython Application Development Cookbook
- python 3.6
- Python 3.5.2 中文文档 互联网唯一CHM版本
- python3.5.2.chm官方文档
评论
共有 条评论