PDF에서 HTML/XML로 변환 Python 라이브러리

PDF 문서를 HTML 및 XML로 변환하는 무료 오픈 소스 Python 라이브러리입니다.

pdfminer.six는 PDF 문서를 다른 형식으로 변환하는 데 사용할 수 있는 무료 오픈 소스 Python 라이브러리입니다.

다음은 주요 PDF 변환 기능의 간략한 목록입니다.

이름:
언어:
별:
포크:
특허:
저장소가 마지막으로 업데이트된 시간:

pypdf를 설치하고 사용하려면 Python 버전 3.6.0 이상이 필요합니다. 따라서 먼저 Python을 설치한 다음 아래 명령을 사용하여 pip 및 가상 환경을 사용하여 컴퓨터에 pypdf를 설치합니다.


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six


python -m venv venv
source venv/bin/activate
pip install pdfminer.six


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

라이브러리에서 제공하는 pdfminer.six 라이브러리의 extract_text_to_fp 함수(출력 유형은 html로 설정)를 사용하여 PDF 문서를 HTML 형식으로 변환할 수 있습니다. 아래 코드 조각에서 볼 수 있습니다.

다음 스크린샷은 PDF 문서를 변환하여 생성된 HTML 파일을 보여줍니다.

아래 코드 조각에서 볼 수 있듯이 라이브러리가 제공하는 동일한 extract_text_to_fp 함수(하지만 출력 유형을 xml로 설정)를 사용하여 PDF 문서를 XML 형식으로 변환할 수도 있습니다.

다음 스크린샷은 PDF 문서에서 변환된 XML 콘텐츠를 보여줍니다.

일반적으로 pdfminer.six는 아무 문제 없이 PDF 문서를 XML 형식으로 변환할 수 있도록 지원하지만 PDF를 HTML로 변환하려고 하면 텍스트 내용은 전송하지만 전반적인 레이아웃이 깨지는 경우가 많습니다.