PDF를 HTML/XML로 변환 Python 라이브러리
PDF 문서를 HTML 및 XML로 변환하는 무료 오픈 소스 Python 라이브러리입니다.
pdfminer.six는 무엇입니까?
pdfminer.six는 PDF 문서를 다른 형식으로 변환하는 데 사용할 수 있는 무료 오픈 소스 Python 라이브러리입니다.
주요 PDF 변환 기능의 간략한 목록은 다음과 같습니다.
- PDF에서 HTML로 변환: 문서의 구조와 레이아웃을 유지하면서 PDF 문서를 HTML 형식으로 변환합니다.
- PDF를 XML로 변환: PDF 파일을 XML 형식으로 변환하여 글꼴 및 기타 요소를 포함한 모든 세부정보를 캡처합니다.
pdfminer.six 시작하기
pypdf를 설치하고 사용하려면 Python 버전 3.6.0 이상이 필요합니다. 따라서 먼저 Python을 설치한 다음 아래 명령을 사용하여 pip 및 가상 환경.
리눅스
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
맥 OS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
윈도우
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
PDF를 HTML로 변환
아래 코드 조각과 같이 라이브러리에서 제공하는 pdfminer.six 라이브러리의 extract_text_to_fp 함수(출력 유형이 html로 설정됨)를 사용하여 PDF 문서를 HTML 형식으로 변환할 수 있습니다.
산출
다음 스크린샷은 PDF 문서를 변환하여 생성된 HTML 파일을 보여줍니다.
PDF를 XML로 변환
아래 코드 스니펫에 표시된 것처럼 라이브러리에서 제공하는 동일한 extract_text_to_fp 함수(그러나 출력 유형은 xml로 설정됨)를 사용하여 PDF 문서를 XML 형식으로 변환할 수도 있습니다.
산출
다음 스크린샷은 PDF 문서에서 변환된 XML 콘텐츠를 보여줍니다.
결론
일반적으로 pdfminer.six는 문제 없이 PDF 문서를 XML 형식으로 변환하는 것을 지원하지만 PDF를 HTML로 변환하려고 하면 텍스트 내용을 전송하지만 종종 전체 레이아웃을 방해합니다.