• 大小: 76KB
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2021-05-07
  • 语言: Python
  • 标签: python  

资源简介

用python实现个一个百度百科爬虫工具,运行环境为python3,程序可以直接运行,简单实用,方便初学者学习的爬虫代码。

资源截图

代码片段和文件信息

import urllib.request


class HtmlDownloader(object):
    def download(self url):
        if url is None:
            return None
        response = urllib.request.urlopen(url)
        if response.getcode() != 200:
            return None

        return response.read()

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2017-06-21 19:30  python百度百科爬虫\
     文件           5  2016-08-16 14:10  python百度百科爬虫\.gitignore
     目录           0  2017-06-21 19:30  python百度百科爬虫\.idea\
     文件         257  2017-03-03 16:44  python百度百科爬虫\.idea\misc.xml
     文件         304  2017-03-03 16:44  python百度百科爬虫\.idea\modules.xml
     文件         398  2017-03-03 16:44  python百度百科爬虫\.idea\python_baike_spider-master.iml
     文件         180  2016-08-16 14:10  python百度百科爬虫\.idea\vcs.xml
     文件       42640  2017-04-05 14:33  python百度百科爬虫\.idea\workspace.xml
     文件         271  2016-08-16 14:10  python百度百科爬虫\README.md
     目录           0  2017-06-21 19:30  python百度百科爬虫\baike_spider\
     文件           0  2016-08-16 14:10  python百度百科爬虫\baike_spider\__init__.py
     目录           0  2017-06-21 19:30  python百度百科爬虫\baike_spider\__pycache__\
     文件         159  2017-03-03 16:42  python百度百科爬虫\baike_spider\__pycache__\__init__.cpython-36.pyc
     文件         596  2017-03-03 16:42  python百度百科爬虫\baike_spider\__pycache__\html_downloader.cpython-36.pyc
     文件        1207  2017-03-03 16:42  python百度百科爬虫\baike_spider\__pycache__\html_outputer.cpython-36.pyc
     文件        1390  2017-03-03 16:42  python百度百科爬虫\baike_spider\__pycache__\html_parser.cpython-36.pyc
     文件        1188  2017-03-03 16:42  python百度百科爬虫\baike_spider\__pycache__\url_manager.cpython-36.pyc
     文件         272  2016-08-16 14:10  python百度百科爬虫\baike_spider\html_downloader.py
     文件         839  2016-08-16 14:10  python百度百科爬虫\baike_spider\html_outputer.py
     文件        1175  2016-08-16 14:10  python百度百科爬虫\baike_spider\html_parser.py
     文件       57442  2017-03-03 17:18  python百度百科爬虫\baike_spider\output.html
     文件        1231  2017-03-03 17:09  python百度百科爬虫\baike_spider\spider_main.py
     文件         634  2016-08-16 14:10  python百度百科爬虫\baike_spider\url_manager.py
     目录           0  2017-06-21 19:30  python百度百科爬虫\dict_spider\
     目录           0  2017-06-21 19:30  python百度百科爬虫\dict_spider\__pycache__\
     文件        2101  2017-04-04 19:56  python百度百科爬虫\dict_spider\__pycache__\html_downloader.cpython-36.pyc
     文件        2559  2017-04-04 19:56  python百度百科爬虫\dict_spider\__pycache__\html_parser.cpython-36.pyc
     文件        2251  2016-08-16 14:10  python百度百科爬虫\dict_spider\html_downloader.py
     文件        4746  2016-08-16 14:10  python百度百科爬虫\dict_spider\html_parser.py
     目录           0  2017-06-21 19:30  python百度百科爬虫\dict_spider\img\
     文件        5515  2016-08-16 14:10  python百度百科爬虫\dict_spider\img\1471327793.jpg
............此处省略15个文件信息

评论

共有 条评论