• 大小: 9KB
    文件类型: .zip
    金币: 2
    下载: 1 次
    发布日期: 2021-06-05
  • 语言: Python
  • 标签: python  爬虫  百科  

资源简介

学习python一周,学着写了一个爬虫,用来抓取360百科的词条,在这个过程中,由于一个小小的改动,程序出现一些问题,又花了几天时间研究,问了各路高手,都没解决,最终还是自己解决了,其实就是对list列表理解不够深入导致的。这个bug很有借鉴意义。 有5个模块: spider_main.py是入口函数 url_manager.py是管理器,管理需要抓取的url和已经抓取的url html_downloader.py是下载器,下载对应url的网页 html_parser.py是解析器,解析出新的url列表和当前的词条信息 html_outputer.py是输出器,将抓取的词条title和解释summary输出成一个html表格 本程序使用的是最新的python3.4.4,使用的类库有: 官方的urllib 第三方的BeautifulSoup(自行下载安装)

资源截图

代码片段和文件信息

import urllib.request


class HtmlDownloader(object):
    def download(self url):
        if url is None:
            return
        res = urllib.request.urlopen(url)
        if res.getcode() != 200:
            return
        return res.read()

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2016-04-07 22:30  baike360_spider\
     文件         257  2016-04-05 00:14  baike360_spider\html_downloader.py
     文件         863  2016-04-07 22:27  baike360_spider\html_outputer.py
     文件        1509  2016-04-07 22:30  baike360_spider\html_parser.py
     文件        3018  2016-04-07 22:31  baike360_spider\output.html
     文件        1217  2016-04-07 22:27  baike360_spider\spider_main.py
     文件         658  2016-04-05 00:13  baike360_spider\url_manager.py
     文件           0  2016-04-04 22:02  baike360_spider\__init__.py
     目录           0  2016-04-07 22:31  baike360_spider\__pycache__\
     文件         602  2016-04-06 13:10  baike360_spider\__pycache__\html_downloader.cpython-34.pyc
     文件        1302  2016-04-07 22:28  baike360_spider\__pycache__\html_outputer.cpython-34.pyc
     文件        1579  2016-04-07 22:31  baike360_spider\__pycache__\html_parser.cpython-34.pyc
     文件        1252  2016-04-06 13:10  baike360_spider\__pycache__\url_manager.cpython-34.pyc
     文件         134  2016-04-06 13:10  baike360_spider\__pycache__\__init__.cpython-34.pyc

评论

共有 条评论