资源简介
百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件。
项目内容:
用Python写的百度贴吧的网络爬虫。
使用方法:
新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行。
程序功能:
将贴吧中楼主发布的内容打包txt存储到本地。
http://blog.csdn.net/wxg694175346/article/details/8934726
代码片段和文件信息
# -*- coding: utf-8 -*-
#---------------------------------------
# 程序:百度贴吧爬虫
# 版本:0.4
# 作者:why
# 日期:2013-05-16
# 语言:Python 2.7
# 操作:输入网址后自动只看楼主并保存到本地文件
# 功能:将楼主发布的内容打包txt存储到本地。
#---------------------------------------
import string
import urllib2
import re
#----------- 处理页面上的各种标签 -----------
class HTML_Tool:
# 用非 贪婪模式 匹配 \t 或者 \n 或者 空格 或者 超链接 或者 图片
BgnCharToNoneRex = re.compile(“(\t|\n| ||)“)
# 用非 贪婪模式 匹配 任意<>标签
EndCharToNoneRex = re.compile(“<.*?>“)
# 用非 贪婪模式 匹配 任意标签
BgnPartRex = re.compile(“
“)
CharToNewLineRex = re.compile(“(
||||)“)
CharToNextTabRex = re.compile(““)
# 将一些html的符号实体转变为原始符号
replaceTab = [(“<““<“)(“>““>“)(“&““&“)(“&am
相关资源
-
python一个打砖块的小游戏
-
python实验指导书 图文高清版
-
python主动安装第三方库
-
python爬取豆瓣top250电影信息
-
python绘制 大蟒蛇
-
python小程序(数组排序)
-
Python去水印(基于cv2)
-
Python 数据结构入门 - 二叉搜索树(
-
python空心电感计算器
-
python除法.docx
-
抽奖背后的秘密(python抽奖逻辑)
-
绘制统计学直方图茎叶图(matplotlib)
-
python求解标准差
-
python数据分析与处理
-
利用Python将照片在Excel中利用点阵图显
-
python turtle 跳房子
-
python 人群计数
-
Python调用第三方API换脸
-
“去哪儿吃”帮你选餐厅(python代码
-
python 控制台登陆密码验证
-
KNN算法的Python实现(datingrecd.ipynb)
-
python核心编程第二版-习题答案
-
python爬取笔趣阁小说
-
Python程序设计基础试题以及答案(3
-
python聊天-服务端与客户端
-
python递归求最大公约数
-
用python画皮卡丘(基于turtle)
-
伟哥的python私房菜(中国程序员).
-
pip一键升级(python脚本)
-
我的世界python编程——天空行走py格式
评论
共有 条评论