资源简介
爬取东方财富网公司公告,包括爬取利用ajax加载的网页,以及如何模拟翻页。与上一版增加了对各种错误机制的处理。

代码片段和文件信息
# coding:utf8
import urllib2
import socket
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
class HtmlDownloader(object):
def download(selfurl):
socket.setdefaulttimeout(200)
if url is None:
return None
response = urllib2.urlopen(url)
if response.getcode() != 200:
return None
return unicode(response.read() ‘GB18030‘ ‘ignore‘).encode(‘UTF-8‘)
#return response.read()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 391 2017-03-23 10:50 EastFortuneByStockIdx\.project
文件 431 2016-10-30 13:20 EastFortuneByStockIdx\.pydevproject
文件 257 2016-11-12 11:07 EastFortuneByStockIdx\.settings\org.eclipse.core.resources.prefs
文件 515 2016-11-15 00:02 EastFortuneByStockIdx\baike_spider\html_downloader.py
文件 996 2016-11-15 00:03 EastFortuneByStockIdx\baike_spider\html_downloader.pyc
文件 769 2016-11-11 00:03 EastFortuneByStockIdx\baike_spider\html_outputer.py
文件 1561 2016-11-11 00:03 EastFortuneByStockIdx\baike_spider\html_outputer.pyc
文件 1099 2017-03-11 18:47 EastFortuneByStockIdx\baike_spider\html_parser.py
文件 1886 2017-03-11 18:48 EastFortuneByStockIdx\baike_spider\html_parser.pyc
文件 4527 2017-04-23 22:36 EastFortuneByStockIdx\baike_spider\spider_main.py
文件 1199 2016-11-14 20:50 EastFortuneByStockIdx\baike_spider\url_manager.py
文件 2222 2016-11-14 20:50 EastFortuneByStockIdx\baike_spider\url_manager.pyc
文件 0 2016-10-30 14:07 EastFortuneByStockIdx\baike_spider\__init__.py
文件 158 2016-11-11 00:03 EastFortuneByStockIdx\baike_spider\__init__.pyc
文件 47 2017-03-23 19:29 EastFortuneByStockIdx\test\__init__.py
目录 0 2017-03-23 19:47 EastFortuneByStockIdx\baike_spider\ann
目录 0 2017-03-23 19:47 EastFortuneByStockIdx\.settings
目录 0 2017-04-15 10:47 EastFortuneByStockIdx\baike_spider
目录 0 2017-03-23 19:47 EastFortuneByStockIdx\test
目录 0 2017-03-23 19:47 EastFortuneByStockIdx
----------- --------- ---------- ----- ----
16058 20
- 上一篇:ICDAR2013数据集评估指标检测工具
- 下一篇:中国城市代码对照表
相关资源
- jQuery ajax实现简单登录验证
- 分页 24款样式页脚代码.rar
- 分页系统模拟实验 操作系统 课程设
- jdbcTemplate分页彻底解决,使用游标滚
- Ajax定时读取数据库(源代码发布)
- 仿126 网易 163 邮箱 界面
- AJAX下载
- 很好用的网站前端页面爬取工具
- springboot+jpa+thymeleaf实现增删改查分页
- IP地址对照表
- 爬取豆瓣电影TOP250程序,包含非常详
- Web Scraper 爬虫 网页抓取 Chrome插件
- 使用MybatisPlus+SpringMBVC完成的CUID以及分
- .net mvc3完整案例
- 爬取新浪微博上的妹纸照片的爬虫程
- 中国行政区划到村总.txt
- 操作系统实现请求分页存储管理页面
- 基于ajax的web聊天室
- Lucene(搜索)Demo
- Json.net
- Unity无限滚动列表(自动分页和网络请
- json获取datatable后生成table分页显示c
- 机械主题爬虫的设计与实现
- extjs 分页是碰到的问题,点击下一页
- 清华大学计算机系网络课程之模式识
- Ajax访问dataSnap Rest服务器
- 模拟登录一些常见的网站
- NBA数据爬虫
- Chrome插件-XPath Helper 完成Bing每日壁纸
- 读秀包库全文器.zip
评论
共有 条评论