资源简介
包含了糗事百科python爬虫 百度贴吧爬虫 和360新闻爬虫样例 欢迎下载
代码片段和文件信息
# -*- coding: utf-8 -*-
#---------------------------------------
# 程序:360新闻标题获取器
# 版本:0.5
# 作者:闲云
# 日期:2013-11-03
# 语言:Python 2.7
# 功能:将360新闻标题的内容打包txt存储到本地。
#---------------------------------------
import string
import urllib2
import re
#----------- 处理页面上的各种标签 -----------
class HTML_Tool:
# 用非 贪婪模式 匹配 \t 或者 \n 或者 空格 或者 超链接 或者 图片
BgnCharToNoneRex = re.compile(“(\t|\n| ||)“)
# 用非 贪婪模式 匹配 任意<>标签
EndCharToNoneRex = re.compile(“<.*?>“)
# 用非 贪婪模式 匹配 任意标签
BgnPartRex = re.compile(“
“)
CharToNewLineRex = re.compile(“(
||||)“)
CharToNextTabRex = re.compile(““)
# 将一些html的符号实体转变为原始符号
replaceTab = [(“<““<“)(“>““>“)(“&““&“)(“&““\““)(“ ““ “)]
def Replace_Char(selfx):
x = self.BgnCharToNoneRex.sub(““x)
x = self.BgnPartRex.sub(“\n “x)
x = self.CharToNewLineRex.sub(“\n“x)
x = self.CharToNextTabRex.sub(“\t“x)
x = self.EndCharToNoneRex.sub(““x)
for t in self.replaceTab:
x = x.replace(t[0]t[1])
return x
class xw_News:
# 申明相关的属性
def __init__(selfurl):
self.myUrl = url
self.datas = []
self.myTool = HTML_Tool()
print u‘已经启动360新闻爬虫,咔嚓咔嚓‘
# 初始化加载页面并将其转码储存
def News(self):
# 读取页面的原始信息并将其从gbk转码
myPage = urllib2.urlopen(self.myUrl).read().decode(“utf-8“)
# 获取最终的数据
self.save_data(self.myUrl)
# 用来存储楼主发布的内容
def save_data(selfurl):
# 加载页面数据到数组中
self.get_data(url)
# 打开本地文件
f = open((‘今日新闻头条.doc‘).decode(‘utf-8‘)‘w+‘)
f.writelines(self.datas)
f.close()
print u‘爬虫报告:文件已下载到本地并打包成doc文件‘
print u‘请按任意键退出...‘
raw_input();
# 获取页面源码并将其存储到数组中
def get_data(selfurl):
myPage = urllib2.urlopen(url).read()
# 将myPage中的html代码处理并存储到datas里面
self.deal_data(myPage.decode(‘utf-8‘))
# 将内容从页面代码中抠出来
def deal_data(selfmyPage):
myItems = re.findall(‘(.*?)‘myPagere.S)
for item in myItems:
data = self.myTool.Replace_Char(item[1].replace(“\n“““).encode(‘utf-8‘))
self.datas.append(data+‘\n‘)
data = self.myTool.Replace_Char(item[0].replace(“\n“““).encode(‘utf-8‘))
self.datas.append(data+‘\n‘)
#-------- 程序入口处 ------------------
print u“““#---------------------------------------
# 程序:360新闻标题获取
# 版本:0.5
# 作者:闲云
# 日期:2013-11-03
# 语言:Python 2.7
# 操作:获取360当日的新闻标题
# 功能:将360新闻的内容打包doc存储到本地。
#---------------------------------------
“““
print u‘360新闻获取‘
bdurl =
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 3760 2013-11-03 19:11 python爬虫样例\360新闻爬虫.py
文件 5531 2013-11-02 22:53 python爬虫样例\百度贴吧看小说爬虫.py
文件 4932 2013-11-02 22:21 python爬虫样例\糗事百科爬虫.py
目录 0 2013-11-16 12:20 python爬虫样例
----------- --------- ---------- ----- ----
14223 4
- 上一篇:特征空间可视化.py
- 下一篇:python实现图书借阅系统
相关资源
-
python实现图书借阅系统
-
特征空间可视化.py
-
希尔密码.py Python 矩阵实现希尔密码
-
python 获取文件夹下文件名称并写入到
-
python面向对象课件
-
Python快速编程入门的课后习题答案(
-
Python爬虫代码
-
搜集和整理的100道Python考试题.docx
-
手写体数字识别原始数据和贝叶斯代
-
Python环境下利用matplotlib绘制发动机万
-
基于Python+Theano实现的Lenet5源代码(附
-
Python 中文手册.chm
-
python实现类似QQ群聊
-
淘宝秒杀python脚本
-
python 从xm
l文件中提取有用信息转
-
淘宝网页数据爬虫
-
REAPER的脚本程序汇总
-
ABAQUS 二次开发Python教程
-
python学习之路 精
-
DBN Python预测交通流
-
43个Python代码打包
-
用A*算法解决TSP问题
-
大作业2 –路由协议Python
-
《Python3网络爬虫开发实战》中文PDF
-
Python教学大纲.rar
-
k-means python实现及数据.zip
-
模拟退火-遗传算法 34省会城市TSP问题
-
python题库112732
-
基于Mnist数据集的贝叶斯分类器
-
python 实现股票分时图K线图及抓取免费
评论
共有 条评论