资源简介
简单的爬虫程序,以某小说网站的一个小说为例,对其进行爬取
代码片段和文件信息
# 导入模块
from lxml import html
import requests
import re
import os.path
starturl = ‘http://www.wuxia.net.cn/book/qijianxiatianshan.html‘ #初始URL
dir = ‘d:\\爬虫目录\\‘ #文件存放目录
page = requests.get(starturl timeout=600) # 请求网页数据
if page.status_code == requests.codes.ok: # 如果网页传输正常
m = [] # m是一个空的列表
tree = html.fromstring(page.content) # 将网页解析为一个树状结构
elem = tree.xpath(‘//*[@id=“main“]/div[2]/dl‘) #在树中导航,找到对应的节点列表
dl = elem[0] #定位到其中的第一个节点
for dd in dl.xpath(‘./dd‘): #定位子节点
href = dd.xpath(‘./a/@href‘)
if href:
m.append(‘http://www.wuxia.net.cn‘+‘‘.join(href))
print(m)
- 上一篇:实现chi、ig、mi计算python
- 下一篇:朴素贝叶斯代码
相关资源
- python一个打砖块的小游戏
- python实验指导书 图文高清版
- python主动安装第三方库
- python爬取豆瓣top250电影信息
- python绘制 大蟒蛇
- python小程序(数组排序)
- Python去水印(基于cv2)
- Python 数据结构入门 - 二叉搜索树(
- python空心电感计算器
- python除法.docx
- 抽奖背后的秘密(python抽奖逻辑)
- 绘制统计学直方图茎叶图(matplotlib)
- python求解标准差
- python数据分析与处理
- 利用Python将照片在Excel中利用点阵图显
- python turtle 跳房子
- python 人群计数
- Python调用第三方API换脸
- “去哪儿吃”帮你选餐厅(python代码
- python 控制台登陆密码验证
- KNN算法的Python实现(datingrecd.ipynb)
- python核心编程第二版-习题答案
- python爬取笔趣阁小说
- Python程序设计基础试题以及答案(3
- python聊天-服务端与客户端
- python递归求最大公约数
- 用python画皮卡丘(基于turtle)
- 伟哥的python私房菜(中国程序员).
- pip一键升级(python脚本)
- 我的世界python编程——天空行走py格式
评论
共有 条评论