资源简介

利用Python的Flask框架和爬虫相关技术,基于“中国裁判文书网”,构建一个内部专用网站。网站前端接受用户所需的查询条件,根据此条件服务器端下载“中国裁判文书网”对应裁判文书,并提供给用户下载。

资源截图

代码片段和文件信息

import re

import requests

import validationService


#获取此条件下共有多少案件
#deep是重新爬取的次数,如果出remind就识别验证码 2次不成功就放弃
def getCaseTotalNumber(condeep=2):
    index=1 #目前是查询结果第几页
    direction=“asc“#不明白含义
    order=“法院层级“#查询结构排序的根据
    page=20#查询结构每页显示多少条
    param=con.toParam()
    para={“Param“:param“Index“:index“Page“:page“Order“:order“Direction“:direction}
    url=“http://192.0.101.71/List/ListContent“
    txt=requests.post(urlpara).text

    if “remind“ in txt and deep >= 0:
        validationService.valid()
        return getCaseTotalNumber(con deep - 1)
    if “remind“ in txt:
        print(“验证码识别失败“)
        return None
    #匹配第一个数字就是案件总数
    caseTotalNumber=re.search(r‘\d+‘txt).group()
    return int(caseTotalNumber)

#同时返回案件ID和其他 提升效率
def getCaseContentList(condeep=2):
    direction=“asc“#不明白含义
    order=“法院层级“#查询结构排序的根据
    page=20#查询结构每页显示多少条
    param=con.toParam()
    url=“http://192.0.101.71/List/ListContent“
    idList=[]
    cprqList=[]
    ajmcList=[]
    fymcList=[]
    ahList=[]
    spcxList=[]
    totalnunber=getCaseTotalNumber(con)
    totalPages=totalnunber//page +1 #总数整除每页20个 得出共有多少页
    #如果总页数都读不到 说明验证码识别失败

    for i in range(1totalPages+1):
        index=i#目前是查询结果第几页
        para={“Param“:param“Index“:index“Page“:page“Order“:order“Direction“:direction}
        txt=requests.post(urlpara).text
        if “remind“ in txt :#如果有验证码了 就识别之后再下载当前页一次
            validationService.valid()
            txt=requests.post(urlpara).text
            js=eval(eval(txt))
            for i in range(1len(js)):
                ajmcList.append(js[i][“案件名称“])
                fymcList.append(js[i][“法院名称“])
                ahList.append(js[i][“案号“])
                spcxList.append(js[i][“审判程序“])
                idList.append(js[i][“文书ID“])
                cprqList.append(js[i][“裁判日期“])
            continue

        js=eval(eval(txt))
        for i in range(1len(js)):
            ajmcList.append(js[i][“案件名称“])
            fymcList.append(js[i][“法院名称“])
            ahList.append(js[i][“案号“])
            spcxList.append(js[i][“审判程序“])
            idList.append(js[i][“文书ID“])
            cprqList.append(js[i][“裁判日期“])
    if deep>0 and totalnunber>len(idList):
        return getCaseContentList(condeep-1)
    elif(totalnunber > len(idList)):
        print(“在此条件{}下,已爬取的案件ID数是{}实际案件ID数是{}发生缺少“.format(con.toParam()len(idList)totalnunber))

    return dict(caseIds=idListcaseDates=cprqListajmcList=ajmcListfymcList=fymcListahList=ahListspcxList=spcxList)



 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件        378  2017-08-20 14:50  ChinaJudgementsOnline\.gitattributes

     文件        649  2017-08-20 14:50  ChinaJudgementsOnline\.gitignore

     文件        674  2018-12-03 00:36  ChinaJudgementsOnline\.idea\ChinaJudgementsOnline-master.iml

     文件        294  2018-12-03 00:30  ChinaJudgementsOnline\.idea\misc.xml

     文件        315  2018-12-03 00:30  ChinaJudgementsOnline\.idea\modules.xml

     文件      14171  2018-12-07 14:57  ChinaJudgementsOnline\.idea\workspace.xml

     文件        342  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\China_Judgements_Online_Spider.iml

     文件        159  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\encodings.xml

     文件        975  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\misc.xml

     文件        553  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\modules.xml

     文件      44980  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\workspace.xml

     文件       3035  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\caseListProcess.py

     文件       1205  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727092032.jpg

     文件       1186  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727092052.jpg

     文件       1238  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727110047.jpg

     文件       1237  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727150507.jpg

     文件       1199  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727174642.jpg

     文件       1247  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728085141.jpg

     文件       1231  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728102152.jpg

     文件       1224  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728163408.jpg

     文件       1263  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728163536.jpg

     文件       1226  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728164025.jpg

     文件       1240  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728164812.jpg

     文件       1223  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729095507.jpg

     文件       1197  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729095608.jpg

     文件       1250  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729100503.jpg

     文件       1252  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729102416.jpg

     文件       1251  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729121104.jpg

     文件       1208  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170810164320.jpg

     文件       1247  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170810164500.jpg

............此处省略789个文件信息

评论

共有 条评论