Python中pdfminer如何抓取PDF中的内容

发布时间：2020-10-29 09:15:43 来源：亿速云阅读：251 作者：小新栏目：编程语言

小编给大家分享一下Python中pdfminer如何抓取PDF中的内容，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！

转换 PDF 有很多库可以完成，如下是通过 pdfminer 的示例：

from cStringIO import StringIO

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage


def convert_pdf_2_text(path):
    
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    
    device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    
    with open(path, 'rb') as fp:
         for page in PDFPage.get_pages(fp, set()):
             interpreter.process_page(page)
         text = retstr.getvalue()
              
               device.close()
               retstr.close()
                 
               return text

需要指出的是，pdfminer 不但可以将 PDF 转换为 text 文本，还可以转换为 HTML 等带有标签的文本。上面只是最简单的示例，如果每页有很独特的标志，你还可以按页单独处理。

以上是Python中pdfminer如何抓取PDF中的内容的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注亿速云行业资讯频道！

向AI问一下细节

Python中pdfminer如何抓取PDF中的内容

猜你喜欢

最新资讯

相关推荐

相关标签