资源简介
爬取东方财富网公司公告,包括爬取利用ajax加载的网页,以及如何模拟翻页。与上一版增加了对各种错误机制的处理。
代码片段和文件信息
# coding:utf8
import urllib2
import socket
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
class HtmlDownloader(object):
def download(selfurl):
socket.setdefaulttimeout(200)
if url is None:
return None
response = urllib2.urlopen(url)
if response.getcode() != 200:
return None
return unicode(response.read() ‘GB18030‘ ‘ignore‘).encode(‘UTF-8‘)
#return response.read()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 391 2017-03-23 10:50 EastFortuneByStockIdx\.project
文件 431 2016-10-30 13:20 EastFortuneByStockIdx\.pydevproject
文件 257 2016-11-12 11:07 EastFortuneByStockIdx\.settings\org.eclipse.core.resources.prefs
文件 515 2016-11-15 00:02 EastFortuneByStockIdx\baike_spider\html_downloader.py
文件 996 2016-11-15 00:03 EastFortuneByStockIdx\baike_spider\html_downloader.pyc
文件 769 2016-11-11 00:03 EastFortuneByStockIdx\baike_spider\html_outputer.py
文件 1561 2016-11-11 00:03 EastFortuneByStockIdx\baike_spider\html_outputer.pyc
文件 1099 2017-03-11 18:47 EastFortuneByStockIdx\baike_spider\html_parser.py
文件 1886 2017-03-11 18:48 EastFortuneByStockIdx\baike_spider\html_parser.pyc
文件 4527 2017-04-23 22:36 EastFortuneByStockIdx\baike_spider\spider_main.py
文件 1199 2016-11-14 20:50 EastFortuneByStockIdx\baike_spider\url_manager.py
文件 2222 2016-11-14 20:50 EastFortuneByStockIdx\baike_spider\url_manager.pyc
文件 0 2016-10-30 14:07 EastFortuneByStockIdx\baike_spider\__init__.py
文件 158 2016-11-11 00:03 EastFortuneByStockIdx\baike_spider\__init__.pyc
文件 47 2017-03-23 19:29 EastFortuneByStockIdx\test\__init__.py
目录 0 2017-03-23 19:47 EastFortuneByStockIdx\baike_spider\ann
目录 0 2017-03-23 19:47 EastFortuneByStockIdx\.settings
目录 0 2017-04-15 10:47 EastFortuneByStockIdx\baike_spider
目录 0 2017-03-23 19:47 EastFortuneByStockIdx\test
目录 0 2017-03-23 19:47 EastFortuneByStockIdx
----------- --------- ---------- ----- ----
16058 20
- 上一篇:ICDAR2013数据集评估指标检测工具
- 下一篇:中国城市代码对照表
相关资源
- 完整版的疯狂Ajax讲义源码
- mybatis分页查询
- select2中文选项通过拼音或者首字母快
- webmagic爬虫项目
- nodejs+ajax用js实现前端后台demo
- CrawlSpider豆瓣图书爬虫
- VS环境WebBrowser开发的简单分页浏览器
- Spring Boot 2.0 + Thymeleaf模板+简单增删改
- 全网最全、人工补充的空气质量历史
- 爬虫代码实现.rar
-
集搜客-爬取数据xm
l转Excel - 基于Struts2的数据库操作及简单分页
- mvc模式用户注册及登录
- 仿京东商品展示分页插件
- 基于.net的网络爬虫
- 网页拖动布局保存
- jboss-3.2.1_tomcat-4.1.24.zip
- 纯js分页-用js实现分页显示
- ajax异步刷新,一般处理程序返回dat
- AjaxLogin.rar
- HttpHelper 爬虫应用类库 苏飞万能框架
- Smarty简单示范
- 操作系统-基本分页存储管理(内有代
- 文件分页显示程序+报告
- C超级爬虫.zip
- elasticsearch聚合后分页
- bootstrap-table动态加载json数据并且支持
- ajax实现的用户注册登录
- 封装的分页插件
- SSH分页组件
评论
共有 条评论