-
大小: 7.25M文件类型: .zip金币: 1下载: 0 次发布日期: 2021-01-30
- 语言: Python
- 标签: pdf 解析 pdfminer3k pdfminer
资源简介
首先安装这个 pip install pdfminer3k
然后将 附件中 1-297.pdf文件 放到 D:/test 目录下
然后在 python 3.6 环境下 运行 ParserPdf.py文件,即可看到如下效果
代码片段和文件信息
#!/usr/bin/env python
# encoding: utf-8
“““
@author: guoliang
@software: PyCharm
@file: prase_pdf.py
@time: 2018/1/25
“““
import sys
import importlib
importlib.reload(sys)
from pdfminer.pdfparser import PDFParserPDFDocument
from pdfminer.pdfinterp import PDFResourceManager PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontalLAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
‘‘‘
解析pdf 文本,保存到txt文件中
‘‘‘
path = r‘D:\test\1-297.pdf‘
def parse():
contentText = ““
fp = open(path ‘rb‘) # 以二进制读模式打开
#用文件对象来创建一个pdf文档分析器
praser = PDFParser(fp)
# 创建一个PDF文档
doc = PDFDocument()
# 连接分析器 与文档对象
praser.set_document(doc)
doc.set_parser(praser)
# 提
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2018-03-23 11:28 pdf_parser\
文件 8357064 2018-01-22 16:57 pdf_parser\1-297.pdf
文件 4547 2018-03-23 11:27 pdf_parser\ParserPdf.py
相关资源
- 深度学习入门:基于Python的理论与实
- 《Python3爬虫、数据清洗与可视化》
- 《Python开发实战》(PDF版高清扫描版
- Python Cookbook 第3版 中文版.pdf
- Selenium2 Python自动化测试实战第二版高
- 《selenium2 python 自动化测试实战第二版
- 《Python深度学习》中文版pdf+英文版
- Python Machine Learning(第1版+第2版)-2
- Python高级编程
- 《Python算法教程》中文版 高清完整
- Python机器学习及实践_从零开始通往
- python基础教程第二版中文版 完整高清
- BrettSlatkin-EffectivePython编写高质量Pyt
- Image-analysis-classifaction-and-change-detect
- 利用python进行数据分析Python For Data
- LearningPython%2C5thEdition.pdf
- 利用python进行数据分析.pdf (中文完整
- python数据科学手册(高清+标签+原版
- python深度学习带目录高清pdf
- 深度学习入门:基于Python的理论和实
- Python数据科学手册.pdf
- Python Machine Learning( Python机器学习.
- Python编程:从入门到实践 超清pdf 非
- Python3核心编程(第3版)中文文字版
- Computer Simulation Foundational Approach Pyt
- FlaskWeb开发:基于Python的Web应用开发实
- 用Python写网络爬虫PDF&源码
- Python网络数据采集.pdf
- Python核心编程第3版中文版.pdf
- Python编程:从入门到实践.pdf
评论
共有 条评论