百度贴吧爬虫 python

大小: 5KB

文件类型: .py

金币: 1

下载: 0 次

发布日期: 2021-01-10
语言: Python
标签: 百度贴吧 爬虫 python

高速下载

资源简介

百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同，都是通过查看源码扣出关键数据，然后将其存储到本地txt文件。项目内容：用Python写的百度贴吧的网络爬虫。使用方法：新建一个BugBaidu.py文件，然后将代码复制到里面后，双击运行。程序功能：将贴吧中楼主发布的内容打包txt存储到本地。 http://blog.csdn.net/wxg694175346/article/details/8934726

资源截图

小图大图

代码片段和文件信息

# -*- coding: utf-8 -*-
#---------------------------------------
#   程序：百度贴吧爬虫
#   版本：0.4
#   作者：why
#   日期：2013-05-16
#   语言：Python 2.7
#   操作：输入网址后自动只看楼主并保存到本地文件
#   功能：将楼主发布的内容打包txt存储到本地。
#---------------------------------------
 
import string
import urllib2
import re

#----------- 处理页面上的各种标签 -----------
class HTML_Tool:
    # 用非 贪婪模式 匹配 \t 或者 \n 或者 空格 或者 超链接 或者 图片
    BgnCharToNoneRex = re.compile（“（\t|\n| ||）“）
    
    # 用非 贪婪模式 匹配 任意<>标签
    EndCharToNoneRex = re.compile（“<.*?>“）

    # 用非 贪婪模式 匹配 任意标签
    BgnPartRex = re.compile（““）
    CharToNewLineRex = re.compile（“（
|
|||
）“）
    CharToNextTabRex = re.compile（““）

    # 将一些html的符号实体转变为原始符号
    replaceTab = [（“<““<“）（“>““>“）（“&““&“）（“&am

上一篇：模拟算卦——python实现
下一篇：笨办法学 Python（第四版epub 英文原版

共有条评论

百度贴吧 爬虫 python

资源简介

资源截图

代码片段和文件信息

评论

相关资源

百度贴吧爬虫 python