博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
pdfminer获取每页的layout
阅读量:6240 次
发布时间:2019-06-22

本文共 834 字,大约阅读时间需要 2 分钟。

#! python2# coding: utf-8import sysfrom pdfminer import pdfparserfrom pdfminer import pdfdocumentfrom pdfminer import pdfinterpfrom pdfminer import pdfpagefrom pdfminer import converterfrom pdfminer import layoutwith file(file_path, 'rb') as fp:    parser = pdfparser.PDFParser(fp)    document = pdfdocument.PDFDocument(parser)    if not document.is_extractable:        raise pdfdocument.PDFTextExtractionNotAllowed    rsrcmgr = pdfinterp.PDFResourceManager()    laparams = layout.LAParams()    device = converter.PDFPageAggregator(rsrcmgr, laparams=laparams)    interpreter = pdfinterp.PDFPageInterpreter(rsrcmgr, device)    pdf_pages = pdfpage.PDFPage.create_pages(document)    for page in pdf_pages:        interpreter.process_page(page)        page_layout = device.get_result()

 

转载于:https://www.cnblogs.com/Greenseer/p/9298250.html

你可能感兴趣的文章
tool
查看>>
hdu2087 剪花布条
查看>>
获取现阶段选中的tab的标题(easyui)
查看>>
tty的核心位置,与运行调用过程
查看>>
Python全栈学习_day011作业
查看>>
20172304 实验三报告
查看>>
[转载]项目风险管理七种武器-霸王枪
查看>>
正则实例
查看>>
Hash与Map
查看>>
sqlmap使用笔记
查看>>
U盾技术学习笔记
查看>>
云计算面临的安全挑战 访北大计算机学院院长陈钟
查看>>
一起谈.NET技术,C#中标准Dispose模式的实现
查看>>
艾伟:C#对游戏手柄的编程开发-API篇(2)
查看>>
关于defineProperty的一点理解
查看>>
如何创建只读域控制器RODC(Read-Only Domain Controller)
查看>>
python-字符串
查看>>
LabVIEW串口通信
查看>>
2017UGUI之slider
查看>>
python下载酷狗音乐源码
查看>>