오픈소스 파이썬 PDF 파서 라이브러리

PDF 문서에서 텍스트, 이미지, 표 및 기타 콘텐츠를 구문 분석하고 읽고 추출할 수 있는 무료 오픈 소스 Python 라이브러리를 사용해 보세요.

PyMuPDF란 무엇인가요?

PyMuPDF는 Fitz라고도 하며, PDF 파일을 작업하기 위한 포괄적인 도구 세트를 제공하는 오픈소스 Python 라이브러리입니다. PyMuPDF를 사용하면 사용자는 PDF 열기, 텍스트, 이미지 및 표 추출, 회전 및 자르기와 같은 페이지 속성 조작, 새 PDF 문서 만들기, PDF 페이지를 이미지로 변환하는 등의 작업을 효율적으로 수행할 수 있습니다.

PyMuPDF는 아래에 나열된 여러 가지 기능을 지원합니다.

PDF 문서 읽기: PyMuPDF는 PDF 문서를 열고 읽을 수 있어 문서 내의 텍스트, 이미지, 기타 콘텐츠에 액세스할 수 있습니다.
텍스트 추출: PDF 문서에서 텍스트 내용, 글꼴, 레이아웃 정보를 포함한 텍스트를 추출할 수 있습니다.
이미지 추출: JPEG나 PNG 등 다양한 포맷의 PDF 문서에서 이미지를 추출할 수 있습니다.
표 추출: PDF 문서에서 표를 추출할 수도 있습니다.

이 리뷰에서 우리의 주요 초점은 라이브러리의 추출 및 파싱 기능에 맞춰질 것입니다. 분할, 병합 및 페이지 관리 기능에 대한 심층적인 평가는 여기를 클릭하세요.

GitHub 통계

이름:
언어:
별:
포크:
특허:
저장소가 마지막으로 업데이트된 시간:

PyMuPDF 시작하기

PyMuPDF를 설치하고 사용하려면 Python 버전 3.8.0 이상이 필요합니다. 따라서 먼저 Python을 설치한 다음 아래 명령을 사용하여 pip 및 가상 환경을 사용하여 컴퓨터에 PyMuPDF를 설치합니다.

리눅스


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

맥OS


python -m venv pymupdf-venv
. pymupdf-venv/bin/activate
pip install pymupdf

윈도우


python -m venv pymupdf-venv
.\pymupdf-venv\Scripts\activate
pip install pymupdf

PDF에서 텍스트 추출

아래 코드에서 볼 수 있듯이 Python에서 PyMuPDF 라이브러리를 사용하면 라이브러리에서 제공하는 함수만 사용하여 PDF 문서에서 텍스트를 추출하고 단어 수 세기 등의 텍스트 분석을 수행할 수 있습니다.

산출

아래 이미지는 PDF 파일에서 추출된 텍스트와 단어 수를 보여줍니다.

PDF에서 이미지 추출

PyMuPDF 라이브러리를 사용하여 Python에서 PDF 문서에서 이미지를 추출할 수 있습니다. 아래 코드 조각은 지정된 PDF 파일을 열고 PDF에서 이미지를 추출하여 현재 작업 디렉토리에 저장합니다.

산출

다음은 PDF 문서에서 추출한 PNG 이미지입니다.

PDF에서 표 추출

PyMuPDF 라이브러리를 사용하여 PDF 문서를 처리하고 여기에서 표를 추출할 수도 있습니다. 지정된 PDF 파일을 열고 PDF 문서에서 표를 추출하는 아래 코드 조각을 확인하세요.

산출

아래 스크린샷은 PDF 문서에서 추출한 표를 보여줍니다.

PDF에 텍스트 삽입

아래의 Python 코드 조각은 PyMuPDF 라이브러리를 사용하여 PDF 파일에 텍스트를 삽입하고 수정된 PDF를 text.pdf로 저장하는 방법을 보여줍니다.

산출

위의 코드를 사용하여 삽입한 텍스트는 아래 빨간색 상자로 강조 표시되어 있습니다.

PyMuPDF를 사용한 OCR을 사용한 PDF 텍스트 인식

We will perform OCR on the PDF file containing the following image:

산출

아래 이미지는 제공된 PDF 파일에 있는 이미지에서 추출한 텍스트를 보여줍니다.

결론

요약하자면, PyMuPDF는 몇 가지 분명한 강점과 약점이 있는 전문적인 도구입니다. OCR 및 텍스트 추출과 같은 작업에 적합하여 PDF의 텍스트를 처리하는 데 유용합니다.

그러나 PDF에서 표를 추출하는 데는 그다지 좋지 않습니다. 특히 PDF가 복잡한 구조이거나 페이지 수가 많을 때는 그렇습니다. 이는 일부 사용자에게는 단점이 될 수 있습니다. 또한 특정 상황에서는 Pandas 및 Tesseract OCR 언어 데이터 파일과 같은 추가 라이브러리가 필요할 수 있으므로 사용에 복잡성이 더해집니다. 이러한 제한에도 불구하고 PyMuPDF는 PDF에서 텍스트 작업을 위한 강력한 선택으로 남아 있습니다.