• 大小: 2KB
    文件类型: .py
    金币: 2
    下载: 1 次
    发布日期: 2021-06-03
  • 语言: Python
  • 标签: python  

资源简介

pdf转txt,可以实现批量,仅仅针对不需要保留pdf格式的需求。

资源截图

代码片段和文件信息

#!/usr/bin/python
#-*- coding: utf-8 -*-

import os
import re
from pdfminer.pdfinterp import PDFResourceManager PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams

#将一个pdf转换成txt
def pdfTotxt1(filepathoutpath):
    try:
        fp = file(filepath ‘rb‘)
        outfp=file(outpath‘w‘)
        #创建一个PDF资源管理器对象来存储共享资源
        #caching = False不缓存
        rsrcmgr = PDFResourceManager(caching = False)
        # 创建一个PDF设备对象
        laparams = LAParams()
        device = TextConverter(rsrcmgr outfp codec=‘utf-8‘ laparams=laparamsimagewriter=None)
        #创建一个PDF解析器对象
        interpreter = PDFPageInterpreter(rsrcmgr device)
        for page in PDFPage.get_pages(fp pagenos = set()maxpages=0
                                   

评论

共有 条评论