1. 제품
  2.   변환
  3.   Python
  4.   pdfminer.six
 
  

PDF에서 HTML/XML로 변환 Python 라이브러리

PDF 문서를 HTML 및 XML로 변환하는 무료 오픈 소스 Python 라이브러리입니다.

pdfminer.six란 무엇인가요?

pdfminer.six는 PDF 문서를 다른 형식으로 변환하는 데 사용할 수 있는 무료 오픈 소스 Python 라이브러리입니다.

다음은 주요 PDF 변환 기능의 간략한 목록입니다.

  • PDF에서 HTML로 변환: 문서의 구조와 레이아웃을 보존하면서 PDF 문서를 HTML 형식으로 변환합니다.
  • PDF에서 XML로 변환: 글꼴 및 기타 요소를 포함한 모든 세부 정보를 캡처하여 PDF 파일을 XML 형식으로 변환합니다.
GitHub

GitHub 통계

이름:
언어:
별:
포크:
특허:
저장소가 마지막으로 업데이트된 시간:

pdfminer.six 시작하기

pypdf를 설치하고 사용하려면 Python 버전 3.6.0 이상이 필요합니다. 따라서 먼저 Python을 설치한 다음 아래 명령을 사용하여 pip가상 환경을 사용하여 컴퓨터에 pypdf를 설치합니다.

리눅스


python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six

맥OS


python -m venv venv
source venv/bin/activate
pip install pdfminer.six

윈도우


python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six

PDF를 HTML로 변환

라이브러리에서 제공하는 pdfminer.six 라이브러리의 extract_text_to_fp 함수(출력 유형은 html로 설정)를 사용하여 PDF 문서를 HTML 형식으로 변환할 수 있습니다. 아래 코드 조각에서 볼 수 있습니다.

산출

다음 스크린샷은 PDF 문서를 변환하여 생성된 HTML 파일을 보여줍니다.

PDF를 XML로 변환

아래 코드 조각에서 볼 수 있듯이 라이브러리가 제공하는 동일한 extract_text_to_fp 함수(하지만 출력 유형을 xml로 설정)를 사용하여 PDF 문서를 XML 형식으로 변환할 수도 있습니다.

산출

다음 스크린샷은 PDF 문서에서 변환된 XML 콘텐츠를 보여줍니다.

결론

일반적으로 pdfminer.six는 아무 문제 없이 PDF 문서를 XML 형식으로 변환할 수 있도록 지원하지만 PDF를 HTML로 변환하려고 하면 텍스트 내용은 전송하지만 전반적인 레이아웃이 깨지는 경우가 많습니다.

유사한 제품

 한국인