python 百度贴吧爬虫

大小: 7KB

文件类型: .py

金币: 1

下载: 0 次

发布日期: 2021-01-03
语言: Python
标签: 爬虫

高速下载

资源简介

按照帖子顺序遍历百度帖子的爬虫根据静谧修改（原来那个失效了）目前速度较慢

资源截图

小图大图

代码片段和文件信息

# -*- coding:utf-8 -*-
import urllib.request urllib.parse urllib.error
import re
import os
 
#处理页面标签类
class Tool:
    #去除img标签7位长空格
    removeImg = re.compile（‘| {7}|‘）
    #删除超链接标签
    removeAddr = re.compile（‘|‘）
    #把换行的标签换为\n
    replaceLine = re.compile（‘||
|
‘）
    #将表格制表替换为\t
    replaceTD= re.compile（‘‘）
    #把段落开头换为\n加空两格
    replacePara = re.compile（‘‘）
    #将换行符或双换行符替换为\n
    replaceBR = re.compile（‘

|
‘）
    replaceKG = re.compile（‘ ‘）
    #将其余标签剔除
    removeExtraTag = re.compile（‘<.*?>‘）
    def replace（selfx）:
        x = re.sub（self.removeImg““x）
        x = re.sub（self.removeAddr““x）
        x = re.sub（self.replaceLine“\n“x）
        x = re.sub（self.replaceTD“\t“x）

共有条评论

python 百度贴吧 爬虫

资源简介

资源截图

代码片段和文件信息

评论

相关资源

python 百度贴吧爬虫