资源简介
使用python语言,通过爬虫技术,爬取qidian小说数据的源码。
python爬虫学习的必备技能,从这里开始。
代码片段和文件信息
#encoding:utf-8
import urllib2
import sys
class HtmlDownLoader(object):
type = sys.getfilesystemencoding();
def download(self url):
if url is None:
return
response=urllib2.urlopen(url)
if response.getcode() != 200:
return None
data = response.read()
return data
#下载的是GBK编码,所以需要特殊处理
def download_script(self url):
if url is None:
return
response=urllib2.urlopen(url)
if response.getcode() != 200:
return None
data = response.read()
return data.decode(“GBK“);
“““
if __name__==“__main__“:
#url = “http://read.qidian.com/BookReader/JtLeEdQdeLBQv4sKnwMhGg2.aspx“
url=“http://read.qidian.com/BookReader/JtLeEdQdeLBQv4sKn
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 13 2016-09-25 09:31 qidian_spider\.idea\.name
文件 159 2016-09-25 09:31 qidian_spider\.idea\encodings.xm
文件 693 2016-09-25 09:31 qidian_spider\.idea\misc.xm
文件 401 2016-09-25 12:36 qidian_spider\.idea\modules.xm
文件 451 2016-09-25 12:36 qidian_spider\.idea\qidian_spider.iml
文件 42133 2016-09-28 16:50 qidian_spider\.idea\workspace.xm
文件 965 2016-09-28 00:38 qidian_spider\novel_spider\html_downloader.py
文件 1215 2016-09-28 16:42 qidian_spider\novel_spider\html_downloader.pyc
文件 658 2016-09-25 09:16 qidian_spider\novel_spider\html_output.py
文件 1423 2016-09-25 09:32 qidian_spider\novel_spider\html_output.pyc
文件 9858 2016-09-28 00:45 qidian_spider\novel_spider\html_parser.py
文件 10001 2016-09-28 16:42 qidian_spider\novel_spider\html_parser.pyc
文件 41108 2016-09-28 16:42 qidian_spider\novel_spider\output.html
文件 2121 2016-09-28 16:42 qidian_spider\novel_spider\spider_main.py
文件 677 2016-09-25 09:00 qidian_spider\novel_spider\url_manager.py
文件 1691 2016-09-25 09:32 qidian_spider\novel_spider\url_manager.pyc
文件 0 2016-09-24 22:17 qidian_spider\novel_spider\_init_.py
目录 0 2016-09-28 16:50 qidian_spider\.idea
目录 0 2016-09-28 16:42 qidian_spider\novel_spider
目录 0 2016-09-25 09:32 qidian_spider
----------- --------- ---------- ----- ----
113567 20
相关资源
- python一个打砖块的小游戏
- python实验指导书 图文高清版
- python主动安装第三方库
- python爬取豆瓣top250电影信息
- python绘制 大蟒蛇
- python小程序(数组排序)
- Python去水印(基于cv2)
- Python 数据结构入门 - 二叉搜索树(
- python空心电感计算器
- python除法.docx
- 抽奖背后的秘密(python抽奖逻辑)
- 绘制统计学直方图茎叶图(matplotlib)
- python求解标准差
- python数据分析与处理
- 利用Python将照片在Excel中利用点阵图显
- python turtle 跳房子
- python 人群计数
- Python调用第三方API换脸
- “去哪儿吃”帮你选餐厅(python代码
- python 控制台登陆密码验证
- KNN算法的Python实现(datingrecd.ipynb)
- python核心编程第二版-习题答案
- python爬取笔趣阁小说
- Python程序设计基础试题以及答案(3
- python聊天-服务端与客户端
- python递归求最大公约数
- 用python画皮卡丘(基于turtle)
- 伟哥的python私房菜(中国程序员).
- pip一键升级(python脚本)
- 我的世界python编程——天空行走py格式
评论
共有 条评论