资源简介
这是一个python专利爬虫,使用中介者模式防止目标网站长时间无响应
代码片段和文件信息
# -*- coding: utf-8 -*-
“““
Created on 2017/3/19
@author: will4906
“““
import time
import os
import sys
from controller.ProgressController import ProgressController
from enums.Config import Config
from util.FileUtil import FileUtil
from util.TimeUtil import TimeUtil
from util.excel.ExcelUtil import ExcelUtil
def initProgress():
try:
os.mkdir(“output“)
except Exception as e:
pass
try:
os.mkdir(“log“)
except:
pass
def init_excel_config():
title_list = [“专利类型“ “专利名称“ “法律状态“ “法律状态最后修改日期“ “申请公布日/授权公告日“ “申请号“ “申请日“ “申请人/专利权人“ “发明人“]
editor = ExcelUtil(Config.FILE_NAME).edit()
sh = editor.getSheet(0)
for index each in enumerate(title_list):
sh.write(0 index each)
editor.commit()
return
if __name__ == ‘__main__‘:
initProgress()
# 这句非常重要,提高python的递归深度,否则递归900次就炸了
sys.setrecursionlimit(1000000) # 例如这里设置为一百万
startDate = input(“请输入公布日开始日期如{0}:“.format(TimeUtil.getFormatTime(“%Y-%m-%d“)))
Config.writeLog(“程序启动,输入的公布开始日期为{0}“.format(startDate))
init_excel_config()
progress = ProgressController(Config.BROSWER_NAME)
Config.writeLog(“启动{0}浏览器“.format(Config.BROSWER_NAME))
queryInfo = progress.getQueryInfo()
queryInfo.setStartDate(startDate)
progress.startProgress()
# print(excel)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2017-04-22 21:36 .idea\
目录 0 2017-03-24 14:53 .idea\inspectionProfiles\
文件 241 2017-03-24 13:30 .idea\inspectionProfiles\profiles_settings.xm
文件 712 2017-03-24 14:53 .idea\inspectionProfiles\Project_Default.xm
目录 0 2017-04-01 14:40 .idea\markdown-navigator\
文件 4008 2017-04-01 14:40 .idea\markdown-navigator.xm
文件 106 2017-04-01 14:40 .idea\markdown-navigator\profiles_settings.xm
文件 693 2017-03-21 01:36 .idea\misc.xm
文件 278 2017-03-21 01:36 .idea\modules.xm
文件 398 2017-03-21 01:36 .idea\PatentCrawler.iml
文件 180 2017-03-21 01:39 .idea\vcs.xm
文件 55000 2017-04-22 21:36 .idea\workspace.xm
目录 0 2017-04-02 16:17 controller\
文件 10276 2017-04-02 16:17 controller\ProgressController.py
文件 76 2017-03-24 02:17 controller\__init__.py
目录 0 2017-04-21 17:35 controller\__pycache__\
文件 8363 2017-04-21 17:35 controller\__pycache__\ProgressController.cpython-35.pyc
文件 197 2017-03-24 22:14 controller\__pycache__\__init__.cpython-35.pyc
目录 0 2017-04-22 15:09 entity\
文件 6489 2017-04-22 15:08 entity\CollectionResult.py
文件 2313 2017-03-25 02:32 entity\ItemData.py
文件 1501 2017-03-26 16:16 entity\ProgressInfo.py
文件 1152 2017-04-22 15:09 entity\QueryInfo.py
文件 76 2017-03-24 02:13 entity\__init__.py
目录 0 2017-04-22 15:08 entity\__pycache__\
文件 4525 2017-04-22 15:08 entity\__pycache__\CollectionResult.cpython-35.pyc
文件 3776 2017-03-25 02:36 entity\__pycache__\ItemData.cpython-35.pyc
文件 2856 2017-03-26 16:27 entity\__pycache__\ProgressInfo.cpython-35.pyc
文件 1162 2017-04-22 15:02 entity\__pycache__\QueryInfo.cpython-35.pyc
文件 193 2017-03-24 22:14 entity\__pycache__\__init__.cpython-35.pyc
目录 0 2017-04-22 14:57 enums\
............此处省略42个文件信息
- 上一篇:(一)python爬虫验证码识别去除干扰线
- 下一篇:Python界面版学生管理系统
相关资源
- Python界面版学生管理系统
- (一)python爬虫验证码识别去除干扰
- Python-西瓜视频百万英雄答题助手
- deep learning with python中文版232513
- python编程从入门到精通配套资源
- Data Wrangling with Python
- 笨方法学python3
- Python数据分析.mobi
- Hands-On Reinforcement Learning with Python 20
- wxPython3.0-win32-3.0.2.0-py27
- python知识点汇总 思维导图
- Python学习手册 第5版(Learning Python)
- 精通Python设计模式.pdf 详细目录,高清
- 经典教程Automate the Boring Stuff with Pyt
- Python和HDF5大数据应用
- 全套从零开始学Python网络爬虫教学以
- 大数据爬虫系统
- 《Python 学习手册》(第五版)英文版
- 《Python编程快速上手 让繁琐工作自动
- 神经网络与深度学习-Neural Network and
- Python数据科学手册源代码
- 航空公司客户价值大数据分析源代码
- tesserocr库
- 《自学是门手艺》
- 利用python进行简单案例数据分析
- 流畅的python
- Python for Kids(高清)pdf
- Python实现基于SVM的车牌识别程序.zip
- Python3入门必备chm帮助手册和思维导图
- 基于python的小游戏,休闲娱乐
评论
共有 条评论