1. 제품
  2.   파서
  3.   Python
  4.   pypdf
 
  

오픈 소스 Python PDF 파서 라이브러리

무료 Python 라이브러리를 사용하여 PDF를 구문 분석하고 PDF 문서에서 텍스트, 이미지 및 첨부 파일을 추출합니다.

pypdf란 무엇입니까?

Pypdf는 다양한 PDF 작업에 능숙한 것으로 알려진 귀중한 오픈 소스 Python 라이브러리입니다. 이 라이브러리는 PDF 파일과 관련된 많은 작업 및 작업을 처리할 수 있지만 이 페이지에서는 PDF 구문 분석 기능에만 중점을 둘 것입니다.

pypdf의 주목할만한 구문 분석 기능은 다음과 같습니다.

  • PDF 파일 읽기: Pypdf를 사용하면 PDF 파일을 열고 읽고 구문 분석할 수 있으므로 기존 PDF 문서에서 텍스트 및 기타 데이터를 쉽게 추출할 수 있습니다.
  • 콘텐츠 추출: 요구 사항에 따라 PDF 문서에서 텍스트, 이미지, 첨부 파일을 구문 분석하고 추출할 수 있습니다.
GitHub

GitHub 통계

이름:
언어:
별:
포크:
특허:
저장소가 마지막으로 업데이트된 시간:

pypdf 시작하기

pypdf를 설치하고 사용하려면 Python 버전 3.6.0 이상이 필요합니다. 따라서 먼저 Python을 설치한 다음 아래 명령을 사용하여 pip가상 환경.

리눅스


python3 -m venv venv
source venv/bin/activate
pip install pypdf

맥 OS


python -m venv venv
source venv/bin/activate
pip install pypdf

윈도우


python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf

PDF에서 텍스트 추출

Please check below code snippet for example:

산출

아래 이미지는 PDF 파일에서 추출된 텍스트를 보여줍니다.

PDF에서 이미지 추출

pypdf 라이브러리를 사용하여 PDF 문서에서 이미지를 추출할 수 있습니다. 이미지를 추출하려면 pillow라는 추가 라이브러리가 필요합니다. 각 페이지를 반복하고 이미지를 식별한 다음 원래 이름을 유지하면서 별도의 이미지 파일로 저장합니다. 예를 들어 아래 코드 조각을 확인하십시오.

산출

위 코드를 사용하여 삽입된 텍스트는 아래 빨간색 상자로 강조 표시됩니다.

PDF에서 첨부 파일 추출

pypdf 라이브러리를 사용하면 PDF 문서에서 첨부 파일을 추출하고 저장할 수 있습니다. 첨부 파일과 해당 내용을 반복하여 별도의 파일에 저장합니다. 예를 들어 아래 코드 조각을 확인하십시오.

결론

결론적으로, pypdf는 PDF 문서에서 기능을 추출하기 위한 다목적 Python 라이브러리로 돋보입니다. 텍스트, 이미지 및 첨부 파일을 구문 분석하는 강력한 기능을 제공하므로 데이터 추출, 분석 및 문서 관리를 위한 귀중한 도구입니다.

그러나 pypdf에서는 텍스트를 추출할 때 단어와 문자 사이의 추가 공백과 같이 추출된 콘텐츠의 정확성에 영향을 미칠 수 있는 문제가 가끔 발생할 수 있다는 점에 유의하는 것이 중요합니다. 이러한 제한에도 불구하고 pypdf는 특히 텍스트의 정확한 형식이 주요 관심사가 아닌 시나리오에서 PDF 파일을 구문 분석하는 데 중요한 자산으로 남아 있습니다.

유사한 제품

 한국인