• 大小: 0.86M
    文件类型: .zip
    金币: 1
    下载: 0 次
    发布日期: 2021-01-30
  • 语言: Python
  • 标签: python  pdf  txt  文本  文件  

资源简介


资源截图

代码片段和文件信息

# -*- coding: utf-8 -*-
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import *
from pdfminer.converter import PDFPageAggregator
import os
# os.chdir(r‘F:\test‘)
fp=open(r‘笨方法学Python.PDF‘‘rb‘)
#来创建一个pdf文档分析器
parser = PDFParser(fp)
#创建一个PDF文档对象存储文档结构
document = PDFDocument(parser)
# 检查文件是否允许文本提取
if not document.is_extractable:
    raise PDFTextExtractionNotAllowed
else:
    # 创建一个PDF资源管理器对象来存储共赏资源
    rsrcmgr=PDFResourceManager()
    # 设定参数进行分析
    laparams=LAParams()
    # 创

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件     1017966  2019-12-02 17:51  笨方法学Python.PDF
     文件        1705  2019-12-03 09:24  pdf2txt.py

评论

共有 条评论