• 大小: 7KB
    文件类型: .py
    金币: 1
    下载: 0 次
    发布日期: 2021-01-03
  • 语言: Python
  • 标签: 爬虫  

资源简介

按照帖子顺序遍历百度帖子的爬虫 根据静谧修改(原来那个失效了) 目前速度较慢

资源截图

代码片段和文件信息

# -*- coding:utf-8 -*-
import urllib.request urllib.parse urllib.error
import re
import os
 
#处理页面标签类
class Tool:
    #去除img标签7位长空格
    removeImg = re.compile(‘| {7}|‘)
    #删除超链接标签
    removeAddr = re.compile(‘|‘)
    #把换行的标签换为\n
    replaceLine = re.compile(‘|
|
|

‘)
    #将表格制表替换为\t
    replaceTD= re.compile(‘‘)
    #把段落开头换为\n加空两格
    replacePara = re.compile(‘‘)
    #将换行符或双换行符替换为\n
    replaceBR = re.compile(‘

|
‘)
    replaceKG = re.compile(‘ ‘)
    #将其余标签剔除
    removeExtraTag = re.compile(‘<.*?>‘)
    def replace(selfx):
        x = re.sub(self.removeImg““x)
        x = re.sub(self.removeAddr““x)
        x = re.sub(self.replaceLine“\n“x)
        x = re.sub(self.replaceTD“\t“x)
        

评论

共有 条评论