资源简介
利用Python的Flask框架和爬虫相关技术,基于“中国裁判文书网”,构建一个内部专用网站。网站前端接受用户所需的查询条件,根据此条件服务器端下载“中国裁判文书网”对应裁判文书,并提供给用户下载。

代码片段和文件信息
import re
import requests
import validationService
#获取此条件下共有多少案件
#deep是重新爬取的次数,如果出remind就识别验证码 2次不成功就放弃
def getCaseTotalNumber(condeep=2):
index=1 #目前是查询结果第几页
direction=“asc“#不明白含义
order=“法院层级“#查询结构排序的根据
page=20#查询结构每页显示多少条
param=con.toParam()
para={“Param“:param“Index“:index“Page“:page“Order“:order“Direction“:direction}
url=“http://192.0.101.71/List/ListContent“
txt=requests.post(urlpara).text
if “remind“ in txt and deep >= 0:
validationService.valid()
return getCaseTotalNumber(con deep - 1)
if “remind“ in txt:
print(“验证码识别失败“)
return None
#匹配第一个数字就是案件总数
caseTotalNumber=re.search(r‘\d+‘txt).group()
return int(caseTotalNumber)
#同时返回案件ID和其他 提升效率
def getCaseContentList(condeep=2):
direction=“asc“#不明白含义
order=“法院层级“#查询结构排序的根据
page=20#查询结构每页显示多少条
param=con.toParam()
url=“http://192.0.101.71/List/ListContent“
idList=[]
cprqList=[]
ajmcList=[]
fymcList=[]
ahList=[]
spcxList=[]
totalnunber=getCaseTotalNumber(con)
totalPages=totalnunber//page +1 #总数整除每页20个 得出共有多少页
#如果总页数都读不到 说明验证码识别失败
for i in range(1totalPages+1):
index=i#目前是查询结果第几页
para={“Param“:param“Index“:index“Page“:page“Order“:order“Direction“:direction}
txt=requests.post(urlpara).text
if “remind“ in txt :#如果有验证码了 就识别之后再下载当前页一次
validationService.valid()
txt=requests.post(urlpara).text
js=eval(eval(txt))
for i in range(1len(js)):
ajmcList.append(js[i][“案件名称“])
fymcList.append(js[i][“法院名称“])
ahList.append(js[i][“案号“])
spcxList.append(js[i][“审判程序“])
idList.append(js[i][“文书ID“])
cprqList.append(js[i][“裁判日期“])
continue
js=eval(eval(txt))
for i in range(1len(js)):
ajmcList.append(js[i][“案件名称“])
fymcList.append(js[i][“法院名称“])
ahList.append(js[i][“案号“])
spcxList.append(js[i][“审判程序“])
idList.append(js[i][“文书ID“])
cprqList.append(js[i][“裁判日期“])
if deep>0 and totalnunber>len(idList):
return getCaseContentList(condeep-1)
elif(totalnunber > len(idList)):
print(“在此条件{}下,已爬取的案件ID数是{}实际案件ID数是{}发生缺少“.format(con.toParam()len(idList)totalnunber))
return dict(caseIds=idListcaseDates=cprqListajmcList=ajmcListfymcList=fymcListahList=ahListspcxList=spcxList)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 378 2017-08-20 14:50 ChinaJudgementsOnline\.gitattributes
文件 649 2017-08-20 14:50 ChinaJudgementsOnline\.gitignore
文件 674 2018-12-03 00:36 ChinaJudgementsOnline\.idea\ChinaJudgementsOnline-master.iml
文件 294 2018-12-03 00:30 ChinaJudgementsOnline\.idea\misc.xm
文件 315 2018-12-03 00:30 ChinaJudgementsOnline\.idea\modules.xm
文件 14171 2018-12-07 14:57 ChinaJudgementsOnline\.idea\workspace.xm
文件 342 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\China_Judgements_Online_Spider.iml
文件 159 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\encodings.xm
文件 975 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\misc.xm
文件 553 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\modules.xm
文件 44980 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\workspace.xm
文件 3035 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\caseListProcess.py
文件 1205 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727092032.jpg
文件 1186 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727092052.jpg
文件 1238 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727110047.jpg
文件 1237 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727150507.jpg
文件 1199 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727174642.jpg
文件 1247 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728085141.jpg
文件 1231 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728102152.jpg
文件 1224 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728163408.jpg
文件 1263 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728163536.jpg
文件 1226 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728164025.jpg
文件 1240 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728164812.jpg
文件 1223 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729095507.jpg
文件 1197 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729095608.jpg
文件 1250 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729100503.jpg
文件 1252 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729102416.jpg
文件 1251 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729121104.jpg
文件 1208 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170810164320.jpg
文件 1247 2017-08-20 14:50 ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170810164500.jpg
............此处省略789个文件信息
相关资源
- 一个多线程智能爬虫,爬取网站小说
- 基于python-flask的个人博客系统
- 基于Python爬虫爬取天气预报信息
- 顶点小说单本书爬虫.py
- 一个简单的python爬虫
- 豆瓣爬虫;Scrapy框架
- 中国城市经纬度爬虫.ipynb
- Python爬虫数据分析可视化
- 网站列表信息爬虫
- 百度图片爬虫(python版)
- python爬取小说59868
- 彼岸花网壁纸爬虫
- Python 爬虫小说.ipynb
- 爬虫爬取网易云音乐
- 北邮python爬虫学堂在线
- python简单爬虫
- 爬取58同城二手房信息.py
- 知网爬虫软件(python)
- python爬虫爬取微博热搜
- python爬虫爬取旅游信息(附源码,c
- python爬虫爬取豆瓣电影信息
- 爬取上百张妹子图源码可直接运行
- Python源代码:以web方式管理自己的常
- Python爬虫实战入门教程
- 网络爬虫(pachong_anjuke.py)
- Python-京东抢购助手包含登录查询商品
- python网络爬虫获取景点信息源码
- python爬取维基百科程序语言消息盒(
- python新浪微博爬虫
- 12306爬虫实现
评论
共有 条评论