파이썬 PDF를 이미지로 자동 변환

그래서 제가 현재 PDF 형식으로 많은 데이터를 공개했지만 설상가상으로 대부분의 PDF는 Office에서 입력 한 문자로 인쇄 / 팩스를 한 다음 스캔 한 것처럼 보입니다 (우리 정부는 최고 어?). 처음에는 내가 미쳤다고 생각했지만 누군가가 스캐너에서 제대로 가져 오지 않은 것처럼 '기울어 진'PDF를 많이보기 시작했습니다. 그래서 저는 그것들에서 실제 텍스트를 얻는 차선책은 각 페이지를 이미지로 바꾸는 것입니다.

분명히 이것은 자동화되어야하며 가능하면 Python을 사용하는 것을 선호합니다. Ruby 또는 Perl이 지나치기에는 너무 멋진 구현 형태를 가지고 있다면, 그 길을 갈 수 있습니다. 나는 텍스트 추출을 위해 pyPDF를 시도했지만 분명히 나에게별로 좋지 않았습니다. 나는 swftools를 사용해 보았지만 그로부터 얻은 이미지는 완전히 사용할 수 없다는 것을 부끄러워합니다. 변환에서 글꼴이 망가진 것처럼 보입니다. 나는 또한 이미지 형식이 비교적 가볍고 읽기 쉬운 한 나가는 도중에 이미지 형식에별로 신경 쓰지 않습니다.

해결 방법

PDF가 실제로 스캔 된 이미지 인 경우 PDF를 이미지로 변환하면 안되며 PDF에서 이미지를 추출해야합니다. 대부분의 경우 PDF의 모든 데이터는 본질적으로 하나의 거대한 이미지이며 Acrobat에서 읽을 수 있도록 PDF 상세 정보로 래핑됩니다.

참조 페이지 https://stackoverflow.com/questions/2002055

'파이썬' 카테고리의 다른 글

파이썬 Matplotlib를 사용하여 정규 분포 플로팅 (0)	2021.01.01
파이썬 Flask에 저장하지 않고 파일 데이터 읽기 (0)	2021.01.01
파이썬에서 mp3 노래 재생 (0)	2020.12.31
파이썬 배열에 행과 열을 추가하려면 어떻게해야합니까? (0)	2020.12.31
파이썬 Pandas를 사용하여 문자열 열의 각 값에 문자열 접두사 추가 (0)	2020.12.31

프로그램 샘플 소스

파이썬 PDF를 이미지로 자동 변환

해결 방법

'파이썬' 카테고리의 다른 글

댓글

티스토리툴바

파이썬 PDF를 이미지로 자동 변환

해결 방법

'파이썬' 카테고리의 다른 글

관련글

댓글

티스토리툴바