资源简介
包含了糗事百科python爬虫 百度贴吧爬虫 和360新闻爬虫样例 欢迎下载

代码片段和文件信息
# -*- coding: utf-8 -*-
#---------------------------------------
# 程序:360新闻标题获取器
# 版本:0.5
# 作者:闲云
# 日期:2013-11-03
# 语言:Python 2.7
# 功能:将360新闻标题的内容打包txt存储到本地。
#---------------------------------------
import string
import urllib2
import re
#----------- 处理页面上的各种标签 -----------
class HTML_Tool:
# 用非 贪婪模式 匹配 \t 或者 \n 或者 空格 或者 超链接 或者 图片
BgnCharToNoneRex = re.compile(“(\t|\n| ||)“)
# 用非 贪婪模式 匹配 任意<>标签
EndCharToNoneRex = re.compile(“<.*?>“)
# 用非 贪婪模式 匹配 任意标签
BgnPartRex = re.compile(“
“)
CharToNewLineRex = re.compile(“(
||||)“)
CharToNextTabRex = re.compile(““)
# 将一些html的符号实体转变为原始符号
replaceTab = [(“<““<“)(“>““>“)(“&““&“)(“&““\““)(“ ““ “)]
def Replace_Char(selfx):
x = self.BgnCharToNoneRex.sub(““x)
x = self.BgnPartRex.sub(“\n “x)
x = self.CharToNewLineRex.sub(“\n“x)
x = self.CharToNextTabRex.sub(“\t“x)
x = self.EndCharToNoneRex.sub(““x)
for t in self.replaceTab:
x = x.replace(t[0]t[1])
return x
class xw_News:
# 申明相关的属性
def __init__(selfurl):
self.myUrl = url
self.datas = []
self.myTool = HTML_Tool()
print u‘已经启动360新闻爬虫,咔嚓咔嚓‘
# 初始化加载页面并将其转码储存
def News(self):
# 读取页面的原始信息并将其从gbk转码
myPage = urllib2.urlopen(self.myUrl).read().decode(“utf-8“)
# 获取最终的数据
self.save_data(self.myUrl)
# 用来存储楼主发布的内容
def save_data(selfurl):
# 加载页面数据到数组中
self.get_data(url)
# 打开本地文件
f = open((‘今日新闻头条.doc‘).decode(‘utf-8‘)‘w+‘)
f.writelines(self.datas)
f.close()
print u‘爬虫报告:文件已下载到本地并打包成doc文件‘
print u‘请按任意键退出...‘
raw_input();
# 获取页面源码并将其存储到数组中
def get_data(selfurl):
myPage = urllib2.urlopen(url).read()
# 将myPage中的html代码处理并存储到datas里面
self.deal_data(myPage.decode(‘utf-8‘))
# 将内容从页面代码中抠出来
def deal_data(selfmyPage):
myItems = re.findall(‘(.*?)‘myPagere.S)
for item in myItems:
data = self.myTool.Replace_Char(item[1].replace(“\n“““).encode(‘utf-8‘))
self.datas.append(data+‘\n‘)
data = self.myTool.Replace_Char(item[0].replace(“\n“““).encode(‘utf-8‘))
self.datas.append(data+‘\n‘)
#-------- 程序入口处 ------------------
print u“““#---------------------------------------
# 程序:360新闻标题获取
# 版本:0.5
# 作者:闲云
# 日期:2013-11-03
# 语言:Python 2.7
# 操作:获取360当日的新闻标题
# 功能:将360新闻的内容打包doc存储到本地。
#---------------------------------------
“““
print u‘360新闻获取‘
bdurl =
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 3760 2013-11-03 19:11 python爬虫样例\360新闻爬虫.py
文件 5531 2013-11-02 22:53 python爬虫样例\百度贴吧看小说爬虫.py
文件 4932 2013-11-02 22:21 python爬虫样例\糗事百科爬虫.py
目录 0 2013-11-16 12:20 python爬虫样例
----------- --------- ---------- ----- ----
14223 4
- 上一篇:特征空间可视化.py
- 下一篇:python实现图书借阅系统
相关资源
-
二级考试python试题12套(包括选择题和
-
pywin32_python3.6_64位
-
python+ selenium教程
-
PycURL(Windows7/Win32)Python2.7安装包 P
-
英文原版-Scientific Computing with Python
-
7.图像风格迁移 基于深度学习 pyt
-
基于Python的学生管理系统
-
A Byte of Python(简明Python教程)(第
-
Python实例174946
-
Python 人脸识别
-
Python 人事管理系统
-
一个多线程智能爬虫,爬取网站小说
-
基于python-flask的个人博客系统
-
计算机视觉应用开发流程
-
python 调用sftp断点续传文件
-
python socket游戏
-
基于Python爬虫爬取天气预报信息
-
python函数编程和讲解
-
顶点小说单本书爬虫.py
-
Python开发的个人博客
-
基于python的三层神经网络模型搭建
-
python实现自动操作windows应用
-
python人脸识别(opencv)
-
python 绘图(方形、线条、圆形)
-
python疫情卡UN管控
-
python 连连看小游戏源码
-
基于PyQt5的视频播放器设计
-
一个简单的python爬虫
-
csv文件行列转换python实现代码
-
Python操作Mysql教程手册
评论
共有 条评论