본문 바로가기
파이썬

파이썬 PDF를 이미지로 자동 변환

by º기록 2021. 1. 1.
반응형

그래서 제가 현재 PDF 형식으로 많은 데이터를 공개했지만 설상가상으로 대부분의 PDF는 Office에서 입력 한 문자로 인쇄 / 팩스를 한 다음 스캔 한 것처럼 보입니다 (우리 정부는 최고 어?). 처음에는 내가 미쳤다고 생각했지만 누군가가 스캐너에서 제대로 가져 오지 않은 것처럼 '기울어 진'PDF를 많이보기 시작했습니다. 그래서 저는 그것들에서 실제 텍스트를 얻는 차선책은 각 페이지를 이미지로 바꾸는 것입니다.

분명히 이것은 자동화되어야하며 가능하면 Python을 사용하는 것을 선호합니다. Ruby 또는 Perl이 지나치기에는 너무 멋진 구현 형태를 가지고 있다면, 그 길을 갈 수 있습니다. 나는 텍스트 추출을 위해 pyPDF를 시도했지만 분명히 나에게별로 좋지 않았습니다. 나는 swftools를 사용해 보았지만 그로부터 얻은 이미지는 완전히 사용할 수 없다는 것을 부끄러워합니다. 변환에서 글꼴이 망가진 것처럼 보입니다. 나는 또한 이미지 형식이 비교적 가볍고 읽기 쉬운 한 나가는 도중에 이미지 형식에별로 신경 쓰지 않습니다.

 

해결 방법

 

PDF가 실제로 스캔 된 이미지 인 경우 PDF를 이미지로 변환하면 안되며 PDF에서 이미지를 추출해야합니다. 대부분의 경우 PDF의 모든 데이터는 본질적으로 하나의 거대한 이미지이며 Acrobat에서 읽을 수 있도록 PDF 상세 정보로 래핑됩니다.


 

참조 페이지 https://stackoverflow.com/questions/2002055

 

 

반응형

댓글