中国裁判文书网爬虫

大小: 3.17MB

文件类型: .rar

金币: 2

下载: 0 次

发布日期: 2024-01-31
语言: Python
标签: 爬虫 裁判文书 flask

高速下载

资源简介

利用Python的Flask框架和爬虫相关技术，基于“中国裁判文书网”，构建一个内部专用网站。网站前端接受用户所需的查询条件，根据此条件服务器端下载“中国裁判文书网”对应裁判文书，并提供给用户下载。

资源截图

小图大图

代码片段和文件信息

import re

import requests

import validationService


#获取此条件下共有多少案件
#deep是重新爬取的次数，如果出remind就识别验证码 2次不成功就放弃
def getCaseTotalNumber（condeep=2）:
    index=1 #目前是查询结果第几页
    direction=“asc“#不明白含义
    order=“法院层级“#查询结构排序的根据
    page=20#查询结构每页显示多少条
    param=con.toParam（）
    para={“Param“:param“Index“:index“Page“:page“Order“:order“Direction“:direction}
    url=“http://192.0.101.71/List/ListContent“
    txt=requests.post（urlpara）.text

    if “remind“ in txt and deep >= 0:
        validationService.valid（）
        return getCaseTotalNumber（con deep - 1）
    if “remind“ in txt:
        print（“验证码识别失败“）
        return None
    #匹配第一个数字就是案件总数
    caseTotalNumber=re.search（r‘\d+‘txt）.group（）
    return int（caseTotalNumber）

#同时返回案件ID和其他 提升效率
def getCaseContentList（condeep=2）:
    direction=“asc“#不明白含义
    order=“法院层级“#查询结构排序的根据
    page=20#查询结构每页显示多少条
    param=con.toParam（）
    url=“http://192.0.101.71/List/ListContent“
    idList=[]
    cprqList=[]
    ajmcList=[]
    fymcList=[]
    ahList=[]
    spcxList=[]
    totalnunber=getCaseTotalNumber（con）
    totalPages=totalnunber//page +1 #总数整除每页20个 得出共有多少页
    #如果总页数都读不到 说明验证码识别失败

    for i in range（1totalPages+1）:
        index=i#目前是查询结果第几页
        para={“Param“:param“Index“:index“Page“:page“Order“:order“Direction“:direction}
        txt=requests.post（urlpara）.text
        if “remind“ in txt :#如果有验证码了 就识别之后再下载当前页一次
            validationService.valid（）
            txt=requests.post（urlpara）.text
            js=eval（eval（txt））
            for i in range（1len（js））:
                ajmcList.append（js[i][“案件名称“]）
                fymcList.append（js[i][“法院名称“]）
                ahList.append（js[i][“案号“]）
                spcxList.append（js[i][“审判程序“]）
                idList.append（js[i][“文书ID“]）
                cprqList.append（js[i][“裁判日期“]）
            continue

        js=eval（eval（txt））
        for i in range（1len（js））:
            ajmcList.append（js[i][“案件名称“]）
            fymcList.append（js[i][“法院名称“]）
            ahList.append（js[i][“案号“]）
            spcxList.append（js[i][“审判程序“]）
            idList.append（js[i][“文书ID“]）
            cprqList.append（js[i][“裁判日期“]）
    if deep>0 and totalnunber>len（idList）:
        return getCaseContentList（condeep-1）
    elif（totalnunber > len（idList））:
        print（“在此条件{}下，已爬取的案件ID数是{}实际案件ID数是{}发生缺少“.format（con.toParam（）len（idList）totalnunber））

    return dict（caseIds=idListcaseDates=cprqListajmcList=ajmcListfymcList=fymcListahList=ahListspcxList=spcxList）

属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件        378  2017-08-20 14:50  ChinaJudgementsOnline\.gitattributes

     文件        649  2017-08-20 14:50  ChinaJudgementsOnline\.gitignore

     文件        674  2018-12-03 00:36  ChinaJudgementsOnline\.idea\ChinaJudgementsOnline-master.iml

     文件        294  2018-12-03 00:30  ChinaJudgementsOnline\.idea\misc.xml

     文件        315  2018-12-03 00:30  ChinaJudgementsOnline\.idea\modules.xml

     文件      14171  2018-12-07 14:57  ChinaJudgementsOnline\.idea\workspace.xml

     文件        342  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\China_Judgements_Online_Spider.iml

     文件        159  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\encodings.xml

     文件        975  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\misc.xml

     文件        553  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\modules.xml

     文件      44980  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\.idea\workspace.xml

     文件       3035  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\caseListProcess.py

     文件       1205  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727092032.jpg

     文件       1186  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727092052.jpg

     文件       1238  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727110047.jpg

     文件       1237  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727150507.jpg

     文件       1199  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170727174642.jpg

     文件       1247  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728085141.jpg

     文件       1231  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728102152.jpg

     文件       1224  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728163408.jpg

     文件       1263  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728163536.jpg

     文件       1226  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728164025.jpg

     文件       1240  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170728164812.jpg

     文件       1223  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729095507.jpg

     文件       1197  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729095608.jpg

     文件       1250  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729100503.jpg

     文件       1252  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729102416.jpg

     文件       1251  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170729121104.jpg

     文件       1208  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170810164320.jpg

     文件       1247  2017-08-20 14:50  ChinaJudgementsOnline\China_Judgements_Online_Spider\code\20170810164500.jpg

............此处省略789个文件信息

上一篇：python编程从入门到实践的案例和动手试一试源代码
下一篇：深度学习视频中的行为识别

共有条评论

中国裁判文书网爬虫

资源简介

资源截图

代码片段和文件信息

评论

相关资源