资源简介
这是一个基于python scrapy的专利爬虫
代码片段和文件信息
# -*- coding: utf-8 -*-
“““
Created on 2017/3/19
@author: will4906
“““
import time
import os
import sys
from scrapy import cmdline
from config.baseConfig import baseConfig
from util.excel.ExcelUtil import ExcelUtil
def initProgress():
try:
os.mkdir(“output“)
except Exception as e:
pass
try:
os.mkdir(“log“)
except:
pass
def init_excel_config():
title_list = [“专利类型“ “专利名称“ “法律状态“ “法律状态最后修改日期“ “公布号“ “申请公布日/授权公告日“ “申请号“ “申请日“ “申请人/专利权人“ “发明人“ “IPC分类号“ “代理人“ “代理机构“ “外观设计洛迦诺分类号“]
editor = ExcelUtil(baseConfig.FILE_NAME).edit()
sh = editor.getSheet(0)
for index each in enumerate(title_list):
sh.write(0 index each)
editor.commit()
return
# 第页 共 10 页 721 条数据
if __name__ == ‘__main__‘:
# startDate = input(“请输入公布日开始日期如{0}:“.format(TimeUtil.getFormatTime(“%Y-%m-%d“)))
# Config.writeLog(“程序启动,输入的公布开始日期为{0}“.format(startDate))
print(“程序开始“)
print(“* 使用说明:https://github.com/will4906/PatentCrawler/wiki\n* 代码更新:https://github.com/will4906/PatentCrawler\n* bug反馈、交流建议:\n邮箱:553105821@qq.com\ngithub:https://github.com/will4906/PatentCrawler/issues“)
initProgress()
init_excel_config()
cmdline.execute((“scrapy crawl Patent -s LOG_FILE=“ + baseConfig.LOG_FILE_NAME).split())
# 共 1 页 5条数据
# 第页 共 10 页 721 条数据
# str = “第页 共 10 页 721 条数据“
# s = str[2:].find(“页“)
# e = str.find(“条“)
# print(s)
# print(e)
# print(int(str[str[2:].find(“页“) + 3:str.find(“条“)]))
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2017-05-22 11:45 PatentCrawler\
目录 0 2017-05-22 11:45 PatentCrawler\.git\
文件 16 2017-05-21 17:38 PatentCrawler\.git\COMMIT_EDITMSG
文件 308 2017-05-21 13:39 PatentCrawler\.git\config
文件 73 2017-05-21 13:35 PatentCrawler\.git\desc
文件 23 2017-05-21 13:39 PatentCrawler\.git\HEAD
目录 0 2017-05-21 13:35 PatentCrawler\.git\hooks\
文件 478 2017-05-21 13:35 PatentCrawler\.git\hooks\applypatch-msg.sample
文件 896 2017-05-21 13:35 PatentCrawler\.git\hooks\commit-msg.sample
文件 189 2017-05-21 13:35 PatentCrawler\.git\hooks\post-update.sample
文件 424 2017-05-21 13:35 PatentCrawler\.git\hooks\pre-applypatch.sample
文件 1642 2017-05-21 13:35 PatentCrawler\.git\hooks\pre-commit.sample
文件 1348 2017-05-21 13:35 PatentCrawler\.git\hooks\pre-push.sample
文件 4951 2017-05-21 13:35 PatentCrawler\.git\hooks\pre-reba
文件 544 2017-05-21 13:35 PatentCrawler\.git\hooks\pre-receive.sample
文件 1239 2017-05-21 13:35 PatentCrawler\.git\hooks\prepare-commit-msg.sample
文件 3610 2017-05-21 13:35 PatentCrawler\.git\hooks\update.sample
文件 3206 2017-05-21 17:38 PatentCrawler\.git\index
目录 0 2017-05-21 13:35 PatentCrawler\.git\info\
文件 240 2017-05-21 13:35 PatentCrawler\.git\info\exclude
目录 0 2017-05-21 13:39 PatentCrawler\.git\logs\
文件 336 2017-05-21 17:38 PatentCrawler\.git\logs\HEAD
目录 0 2017-05-21 13:39 PatentCrawler\.git\logs\refs\
目录 0 2017-05-21 13:39 PatentCrawler\.git\logs\refs\heads\
文件 336 2017-05-21 17:38 PatentCrawler\.git\logs\refs\heads\master
目录 0 2017-05-21 13:39 PatentCrawler\.git\logs\refs\remotes\
目录 0 2017-05-21 13:39 PatentCrawler\.git\logs\refs\remotes\origin\
文件 185 2017-05-21 13:39 PatentCrawler\.git\logs\refs\remotes\origin\HEAD
文件 142 2017-05-21 17:39 PatentCrawler\.git\logs\refs\remotes\origin\master
目录 0 2017-05-21 17:38 PatentCrawler\.git\ob
目录 0 2017-05-21 17:38 PatentCrawler\.git\ob
............此处省略84个文件信息
- 上一篇:Lua语言程序设计合集8本
- 下一篇:python3.7 官方中文手册文档全套
相关资源
- python实现SGBM图像匹配算法
- python实现灰度直方图均衡化
- scrapy_qunar_one
- Python学习全系列教程永久可用
- python简明教程.chm
- 抽奖大转盘python的图形化界面
- 双边滤波器实验报告及代码python
- python +MYSQL+HTML实现21蛋糕网上商城
- Python-直播答题助手自动检测出题搜索
- OpenCV入门教程+OpenCV官方教程中文版
- Python 串口工具源码+.exe文件
- Python开发的全栈股票系统.zip
- Python操作Excel表格并将其中部分数据写
- python书籍 PDF
- 利用python绘制散点图
- python+labview+No1.vi
- 老男孩python项目实战
- python源码制作whl文件.rar
- python3.5可用的scipy
- PYTHON3 经典50案例.pptx
- 计算机科学导论-python.pdf
- python模拟鼠标点击屏幕
- windows鼠标自动点击py脚本
- 鱼c小甲鱼零基础学python全套课后题和
- Python 练习题100道
- Practical Programming 2nd Edition
- wxPython Application Development Cookbook
- python 3.6
- Python 3.5.2 中文文档 互联网唯一CHM版本
- python3.5.2.chm官方文档
评论
共有 条评论