오픈소스 파이썬 PDF 파서 라이브러리
PDF를 구문 분석하고 서식 정보가 포함된 텍스트를 추출하는 무료 오픈 소스 Python 라이브러리입니다.
pdfminer.six란 무엇인가요?
Pdfminer.six는 PDF 문서에서 데이터를 추출하기 위한 오픈 소스 Python 라이브러리 및 툴셋입니다. PDF 문서를 구문 분석하고 PDF에서 텍스트, 목차 및 태그가 지정된 내용 등을 추출하여 데이터 분석을 할 수 있습니다.
다음은 구문 분석 기능의 간략한 목록입니다.
- 텍스트 추출: 텍스트 색상, 글꼴, 위치 등의 레이아웃 및 서식 정보를 포함한 텍스트 콘텐츠를 PDF 문서에서 추출합니다.
- 글꼴 정보 추출: PDF 문서에 사용된 글꼴에 대한 정보를 추출합니다.
pdfminer.six 시작하기
pypdf를 설치하고 사용하려면 Python 버전 3.6.0 이상이 필요합니다. 따라서 먼저 Python을 설치한 다음 아래 명령을 사용하여 pip 및 가상 환경을 사용하여 컴퓨터에 pypdf를 설치합니다.
리눅스
python3 -m venv venv
source venv/bin/activate
pip install pdfminer.six
맥OS
python -m venv venv
source venv/bin/activate
pip install pdfminer.six
윈도우
python3 -m venv venv
venv\Scripts\activate.bat
pip install pdfminer.six
PDF 문서에서 텍스트 추출
아래 코드 조각에 표시된 것처럼 extract_text 함수를 사용하여 Python에서 pdfminer.six 라이브러리를 사용하면 PDF 문서에서 텍스트를 추출할 수 있습니다.
산출
다음 스크린샷은 PDF 문서에서 추출한 텍스트를 보여줍니다.
PDF 문서에서 글꼴 정보 추출
PDF 문서에서 사용된 글꼴에 대한 정보(예: 글꼴 이름 및 글꼴 크기)를 추출하려면 PDF의 각 페이지의 레이아웃 요소를 반복합니다. 예를 들어, 아래 코드 조각을 확인하세요.
산출
다음 스크린샷은 PDF 문서에서 추출한 글꼴 정보를 보여줍니다.
결론
결론적으로, pdfminer.six는 PDF 문서에서 텍스트와 기타 정보를 추출하는 기능은 있지만, PDF에서 이미지와 표를 추출하는 기능이 부족합니다.
pdfminer.six 라이브러리는 PDF 페이지를 이미지로 추출하는 것을 지원하지만, pdfminer.six에서 지원하지 않는 PDF 문서에 포함된 이미지를 추출하는 것과는 다릅니다. 그러나 개발자는 여전히 Python에서 PDF를 구문 분석하여 데이터 분석 요구 사항에 맞는 텍스트를 추출하는 데 사용할 수 있습니다.