• 大小: 20.14MB
    文件类型: .zip
    金币: 2
    下载: 1 次
    发布日期: 2023-06-28
  • 语言: Python
  • 标签: 爬虫  python  scrapy  

资源简介

这是一个基于python scrapy的专利爬虫

资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-
“““
Created on 2017/3/19

@author: will4906
“““
import time
import os
import sys

from scrapy import cmdline

from config.baseConfig import baseConfig
from util.excel.ExcelUtil import ExcelUtil


def initProgress():
    try:
        os.mkdir(“output“)
    except Exception as e:
        pass
    try:
        os.mkdir(“log“)
    except:
        pass


def init_excel_config():
    title_list = [“专利类型“ “专利名称“ “法律状态“ “法律状态最后修改日期“ “公布号“ “申请公布日/授权公告日“ “申请号“ “申请日“ “申请人/专利权人“ “发明人“ “IPC分类号“ “代理人“ “代理机构“ “外观设计洛迦诺分类号“]
    editor = ExcelUtil(baseConfig.FILE_NAME).edit()
    sh = editor.getSheet(0)
    for index each in enumerate(title_list):
        sh.write(0 index each)
    editor.commit()
    return


# 第页 共 10 页 721 条数据
if __name__ == ‘__main__‘:
    # startDate = input(“请输入公布日开始日期如{0}:“.format(TimeUtil.getFormatTime(“%Y-%m-%d“)))
    # Config.writeLog(“程序启动,输入的公布开始日期为{0}“.format(startDate))
    print(“程序开始“)
    print(“* 使用说明:https://github.com/will4906/PatentCrawler/wiki\n* 代码更新:https://github.com/will4906/PatentCrawler\n* bug反馈、交流建议:\n邮箱:553105821@qq.com\ngithub:https://github.com/will4906/PatentCrawler/issues“)
    initProgress()
    init_excel_config()
    cmdline.execute((“scrapy crawl Patent -s LOG_FILE=“ + baseConfig.LOG_FILE_NAME).split())
    # 共 1 页   5条数据
    # 第页 共 10 页 721 条数据
    # str = “第页 共 10 页 721 条数据“
    # s = str[2:].find(“页“)
    # e = str.find(“条“)
    # print(s)
    # print(e)
    # print(int(str[str[2:].find(“页“) + 3:str.find(“条“)]))



 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2017-05-22 11:45  PatentCrawler\
     目录           0  2017-05-22 11:45  PatentCrawler\.git\
     文件          16  2017-05-21 17:38  PatentCrawler\.git\COMMIT_EDITMSG
     文件         308  2017-05-21 13:39  PatentCrawler\.git\config
     文件          73  2017-05-21 13:35  PatentCrawler\.git\description
     文件          23  2017-05-21 13:39  PatentCrawler\.git\HEAD
     目录           0  2017-05-21 13:35  PatentCrawler\.git\hooks\
     文件         478  2017-05-21 13:35  PatentCrawler\.git\hooks\applypatch-msg.sample
     文件         896  2017-05-21 13:35  PatentCrawler\.git\hooks\commit-msg.sample
     文件         189  2017-05-21 13:35  PatentCrawler\.git\hooks\post-update.sample
     文件         424  2017-05-21 13:35  PatentCrawler\.git\hooks\pre-applypatch.sample
     文件        1642  2017-05-21 13:35  PatentCrawler\.git\hooks\pre-commit.sample
     文件        1348  2017-05-21 13:35  PatentCrawler\.git\hooks\pre-push.sample
     文件        4951  2017-05-21 13:35  PatentCrawler\.git\hooks\pre-rebase.sample
     文件         544  2017-05-21 13:35  PatentCrawler\.git\hooks\pre-receive.sample
     文件        1239  2017-05-21 13:35  PatentCrawler\.git\hooks\prepare-commit-msg.sample
     文件        3610  2017-05-21 13:35  PatentCrawler\.git\hooks\update.sample
     文件        3206  2017-05-21 17:38  PatentCrawler\.git\index
     目录           0  2017-05-21 13:35  PatentCrawler\.git\info\
     文件         240  2017-05-21 13:35  PatentCrawler\.git\info\exclude
     目录           0  2017-05-21 13:39  PatentCrawler\.git\logs\
     文件         336  2017-05-21 17:38  PatentCrawler\.git\logs\HEAD
     目录           0  2017-05-21 13:39  PatentCrawler\.git\logs\refs\
     目录           0  2017-05-21 13:39  PatentCrawler\.git\logs\refs\heads\
     文件         336  2017-05-21 17:38  PatentCrawler\.git\logs\refs\heads\master
     目录           0  2017-05-21 13:39  PatentCrawler\.git\logs\refs\remotes\
     目录           0  2017-05-21 13:39  PatentCrawler\.git\logs\refs\remotes\origin\
     文件         185  2017-05-21 13:39  PatentCrawler\.git\logs\refs\remotes\origin\HEAD
     文件         142  2017-05-21 17:39  PatentCrawler\.git\logs\refs\remotes\origin\master
     目录           0  2017-05-21 17:38  PatentCrawler\.git\objects\
     目录           0  2017-05-21 17:38  PatentCrawler\.git\objects\1f\
............此处省略84个文件信息

评论

共有 条评论