资源简介

(一)python爬虫验证码识别(去除干扰线)https://blog.csdn.net/weixin_40267472/article/details/81384624

资源截图

代码片段和文件信息

#-*-coding:utf-8 -*-
from __future__ import division
import cv2
import math
from pytesser import *
import os
import re


def del_noise(im_cut):
    ‘‘‘ variable:bins:灰度直方图bin的数目
                  num_gray:像素间隔
        method:1.找到灰度直方图中像素第二多所对应的像素,即second_max因为图像空白处比较多所以第一多的应该是空白,第二多的才是我们想要的内容。
                2.计算mode
                3.除了在mode+-一定范围内的,全部变为空白。
    ‘‘‘
    bins = 16
    num_gray = math.ceil(256 / bins)
    hist = cv2.calcHist([im_cut] [0] None [bins] [0 256])
    lists = []
    for i in range(len(hist)):
        # print hist[i][0]
        lists.append(hist[i][0])
    second_max = sorted(lists)[-2]
    bins_second_max = lists.index(second_max)

    mode = (bins_second_max + 0.5) * num_gray

    for i in range(len(im_cut)):
        for j in range(len(im_cut[0])):
            if im_cut[i][j] < mode - 15 or im_cut[i][j] > mode + 15:
                # print im_cut[i][j]
                im_cut[i][j] = 255
    return im_cut


def cut_image(image num img_name):
    # image = cv2.imread(‘./img/8.jpg‘)
    im = cv2.cvtColor(image cv2.COLOR_BGR2GRAY)
    # im_cut_real = im[8:47 28:128]

    im_cut_1 = im[8:47 27:52]
    im_cut_2 = im[8:47 52:77]
    im_cut_3 = im[8:47 77:102]
    im_cut_4 = im[8:47 102:127]

    im_cut = [im_cut_1 im_cut_2 im_cut_3 im_cut_4]
    for i in range(4):
        im_temp = del_noise(im_cut[i])
        cv2.imwrite(‘./img_train_cut/‘+str(num)+ ‘_‘ + str(i)+‘_‘+img_name[i]+‘.jpg‘ im_temp)


if __name__ == ‘__main__‘:
    img_dir = ‘./img‘
    img_name = os.listdir(img_dir)  # 列出文件夹下所有的目录与文件
    for i in range(len(img_name)):
        path = os.path.join(img_dir img_name[i])
        image = cv2.imread(path)
        name_list = list(img_name[i])[:4]
        # name = ‘‘.join(name_list)
        cut_image(image i name_list)
        print ‘图片%s分割完成‘ % (i)

    print u‘*****图片分割预处理完成!*****‘




 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件        2174  2018-08-02 15:06  cut_image.py
     文件         610  2018-09-20 23:49  download_img.py
     文件        4361  2018-08-01 15:32  img\0024.jpg
     文件        4366  2018-08-01 16:10  img\0027.jpg
     文件        4560  2018-08-01 16:10  img\0059.jpg
     文件        4479  2018-08-01 16:10  img\0066.jpg
     文件        4539  2018-08-01 16:10  img\0074.jpg
     文件        4296  2018-08-02 14:17  img\0084.jpg
     文件        4420  2018-08-01 16:10  img\0102.jpg
     文件        4689  2018-08-01 16:10  img\0107.jpg
     文件        4426  2018-08-01 16:10  img\0110.jpg
     文件        4242  2018-08-01 15:33  img\0112.jpg
     文件        4271  2018-08-01 16:10  img\0127.jpg
     文件        4156  2018-08-01 15:33  img\0129.jpg
     文件        4315  2018-08-01 16:10  img\0138.jpg
     文件        4538  2018-08-01 16:10  img\0141.jpg
     文件        4380  2018-08-01 16:11  img\0152.jpg
     文件        4714  2018-08-01 16:10  img\0163.jpg
     文件        3967  2018-08-01 16:10  img\0165.jpg
     文件        4164  2018-08-01 16:10  img\0179.jpg
     文件        3876  2018-08-01 16:10  img\0180.jpg
     文件        4130  2018-08-01 16:10  img\0193.jpg
     文件        4191  2018-08-01 16:10  img\0197.jpg
     文件        4602  2018-08-01 16:10  img\0199.jpg
     文件        4130  2018-08-01 16:10  img\0205.jpg
     文件        4484  2018-08-01 16:10  img\0207.jpg
     文件        4156  2018-08-01 16:10  img\0218.jpg
     文件        4390  2018-08-01 16:10  img\0222.jpg
     文件        4723  2018-08-01 16:10  img\0227.jpg
     文件        4537  2018-08-01 16:10  img\0239.jpg
     文件        4530  2018-08-01 16:11  img\0247.jpg
............此处省略6478个文件信息

评论

共有 条评论