资源简介
利用Python的Flask框架和爬虫相关技术,基于“中国裁判文书网”,构建一个内部专用网站。网站前端接受用户所需的查询条件,根据此条件服务器端下载“中国裁判文书网”对应裁判文书,并提供给用户下载。
代码片段和文件信息
import re
import requests
import validationService
#获取此条件下共有多少案件
#deep是重新爬取的次数,如果出remind就识别验证码 2次不成功就放弃
def getCaseTotalNumber(condeep=2):
index=1 #目前是查询结果第几页
direction=“asc“#不明白含义
order=“法院层级“#查询结构排序的根据
page=20#查询结构每页显示多少条
param=con.toParam()
para={“Param“:param“Index“:index“Page“:page“Order“:order“Direction“:direction}
url=“http://192.0.101.71/List/ListContent“
txt=requests.post(urlpara).text
if “remind“ in txt and deep >= 0:
validationService.valid()
return getCaseTotalNumber(con deep - 1)
if “remind“ in txt:
print(“验证码识别失败“)
return None
#匹配第一个数字就是案件总数
caseTotalNumber=re.search(r‘\d+‘txt).group()
return int(caseTotalNumber)
#同时返回案件ID和其他 提升效率
def getCaseContentList(condeep=2):
direction=“asc“#不明白含义
order=“法院层级“#查询结构排序的根据
page=20#查询结构每页显示多少条
param=con.toParam()
url=“http://192.0.101.71/List/ListContent“
idList=[]
cprqList=[]
ajmcList=[]
fymcList=[]
ahList=[]
spcxList=[]
totalnunber=getCaseTotalNumber(con)
totalPages=totalnunber//page +1 #总数整除每页20个 得出共有多少页
#如果总页数都读不到 说明验证码识别失败
for i in range(1totalPages+1):
index=i#目前是查询结果第几页
para={“Param“:param“Index“:index“Page“:page“Order“:order“Direction“:direction}
txt=requests.post(urlpara).text
if “remind“ in txt :#如果有验证码了 就识别之后再下载当前页一次
validationService.valid()
txt=requests.post(urlpara).text
js=eval(eval(txt))
for i in range(1len(js)):
ajmcList.append(js[i][“案件名称“])
fymcList.append(js[i][“法院名称“])
ahList.append(js[i][“案号“])
spcxList.append(js[i][“审判程序“])
idList.append(js[i][“文书ID“])
cprqList.append(js[i][“裁判日期“])
continue
js=eval(eval(txt))
for i in range(1len(js)):
ajmcList.append(js[i][“案件名称“])
fymcList.append(js[i][“法院名称“])
ahList.append(js[i][“案号“])
spcxList.append(js[i][“审判程序“])
idList.append(js[i][“文书ID“])
cprqList.append(js[i][“裁判日期“])
if deep>0 and totalnunber>len(idList):
return getCaseContentList(condeep-1)
elif(totalnunber > len(idList)):
print(“在此条件{}下,已爬取的案件ID数是{}实际案件ID数是{}发生缺少“.format(con.toParam()len(idList)totalnunber))
return dict(caseIds=idListcaseDates=cprqListajmcList=ajmcListfymcList=fymcListahList=ahListspcxList=spcxList)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 378 2017-08-20 14:50 ChinaJudgementsOnline\.gitattributes
文件 649 2017-08-20 14:50 ChinaJudgementsOnline\.gitignore
文件 674 2018-12-03 00:36 ChinaJudgementsOnline\.idea\ChinaJudgementsOnline-master.iml
文件 294 2018-12-03 00:30 ChinaJudgementsOnline\.idea\misc.xm
文件 315 2018-12-03 00:30 ChinaJudgementsOnline\.idea\modules.xm
文件 14171 2018-12-07 14:57 ChinaJudgementsOnline\.idea\workspace.xm
文件 342 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\China_Judgements_Online_Spider.iml
文件 159 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\encodings.xm
文件 975 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\misc.xm
文件 553 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\modules.xm
文件 44980 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\workspace.xm
文件 3035 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\caseListProcess.py
文件 1205 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727092032.jpg
文件 1186 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727092052.jpg
文件 1238 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727110047.jpg
文件 1237 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727150507.jpg
文件 1199 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727174642.jpg
文件 1247 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728085141.jpg
文件 1231 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728102152.jpg
文件 1224 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728163408.jpg
文件 1263 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728163536.jpg
文件 1226 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728164025.jpg
文件 1240 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728164812.jpg
文件 1223 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729095507.jpg
文件 1197 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729095608.jpg
文件 1250 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729100503.jpg
文件 1252 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729102416.jpg
文件 1251 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729121104.jpg
文件 1208 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170810164320.jpg
文件 1247 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170810164500.jpg
............此处省略789个文件信息
相关资源
- Python爬虫相关书籍.zip
- python_web实战-源码
- 豆瓣电影排行爬虫
- 疫情数据爬虫并绘制柱状图.py
- python新浪微博爬虫,爬取微博和用户
- Python数据爬虫及可视化分析
- 一套最新价值1680元的python爬虫实战全
- 测试工程师相关学习视频(包含pyth
- 11-Python爬虫工程师-App抓取进阶
- 基于10000网页python搭建搜索引擎课程设
- 法律判决文书python爬虫、以及数据处
- python新浪微博爬虫,爬取微博和用户
- Python网络爬虫实战.epub
- FlaskWeb开发:基于Python的Web应用开发实
- Python爬虫、Flask框架与ECharts实现数据
- Python爬虫入门到实战 (二花) PDF版
- python网络爬虫爬取整个网页
- Python-利用Python图虫网摄影作品
- ScrapyMySQL爬取链家网中北京地区租房信
- 学习python爬虫看一篇就足够了之爬取
- python3爬虫
- Python项目案例开发从入门到实战源代
- 基于Python的网络爬虫系统的设计与实
- 基于Python的分布式网络爬虫系统的设
- 爬取优酷电影代码
- 基于Python网络爬虫毕业论文.doc
- 基于Python智联招聘牌爬虫+本科毕业论
- FlaskWeb开发:Python基于Web应用开发实战
- Python爬虫开源项目代码
- 《Python爬虫-开发与项目实战》源码
评论
共有 条评论