본문 바로가기
파이썬

파이썬 pdfminer를 라이브러리로 사용하는 방법

by º기록 2020. 10. 5.
반응형




내가 시도한 또 다른 접근 방식은 os.system 을 사용하여 스크립트 내에서 스크립트를 호출하는 것이 었습니다. 이것은 또한 실패했습니다.

Python 버전 2.7.1 및 pdfminer 버전 20110227을 사용하고 있습니다.

 

해결 방법

 

여기에 제가 마침내 제작 한 정리 된 버전이 있습니다. 다음은 파일 이름이 주어지면 단순히 PDF의 문자열을 반환합니다. 나는 이것이 누군가의 시간을 절약하기를 바랍니다.

from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from cStringIO import StringIO

def convert_pdf(path):

    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

    fp = file(path, 'rb')
    process_pdf(rsrcmgr, device, fp)
    fp.close()
    device.close()

    str = retstr.getvalue()
    retstr.close()
    return str


 

참조 페이지 https://stackoverflow.com/questions/5725278

 

 

반응형

댓글