오픈소스 파이썬 PDF 파서 라이브러리
무료 Python 라이브러리를 사용하여 PDF를 구문 분석하고 PDF 문서에서 텍스트, 이미지 및 첨부 파일을 추출합니다.
pypdf란 무엇인가요?
Pypdf는 다양한 PDF 작업에 능숙한 것으로 알려진 귀중한 오픈 소스 Python 라이브러리입니다. 이 라이브러리는 PDF 파일과 관련된 많은 작업과 작업을 처리할 수 있지만, 이 페이지에서는 PDF 파싱 기능에만 집중하겠습니다.
pypdf의 주요 구문 분석 기능은 다음과 같습니다.
- PDF 파일 읽기: Pypdf를 사용하면 PDF 파일을 열고 읽고 구문 분석할 수 있어 기존 PDF 문서에서 텍스트 및 기타 데이터를 쉽게 추출할 수 있습니다.
- 콘텐츠 추출: 요구 사항에 맞게 PDF 문서에서 텍스트, 이미지 및 첨부 파일을 구문 분석하고 추출할 수 있습니다.
pypdf 시작하기
pypdf를 설치하고 사용하려면 Python 버전 3.6.0 이상이 필요합니다. 따라서 먼저 Python을 설치한 다음 아래 명령을 사용하여 pip 및 가상 환경을 사용하여 컴퓨터에 pypdf를 설치합니다.
리눅스
python3 -m venv venv
source venv/bin/activate
pip install pypdf
맥OS
python -m venv venv
source venv/bin/activate
pip install pypdf
윈도우
python3 -m venv venv
venv\Scripts\activate.bat
pip install pypdf
PDF에서 텍스트 추출
Please check below code snippet for example:산출
아래 이미지는 PDF 파일에서 추출된 텍스트를 보여줍니다.
PDF에서 이미지 추출
pypdf 라이브러리를 사용하여 PDF 문서에서 이미지를 추출할 수 있습니다. 이미지를 추출하려면 pillow라는 추가 라이브러리가 필요합니다. 각 페이지를 반복하고 이미지를 식별하여 원래 이름을 유지하면서 별도의 이미지 파일로 저장합니다. 예를 들어 아래 코드 조각을 확인하세요.
산출
위 코드를 사용하여 삽입된 텍스트는 아래에 주어진 빨간색 상자로 강조 표시됩니다.
PDF에서 첨부 파일 추출
pypdf 라이브러리는 PDF 문서에서 첨부 파일을 추출하고 저장할 수 있습니다. 첨부 파일과 그 내용을 반복하여 별도의 파일에 저장합니다. 예를 들어 아래 코드 조각을 확인하세요.
결론
결론적으로, pypdf는 PDF 문서에서 피처를 추출하기 위한 다재다능한 Python 라이브러리로 돋보입니다. 텍스트, 이미지, 첨부 파일을 구문 분석하는 강력한 기능을 제공하여 데이터 추출, 분석 및 문서 관리에 귀중한 도구가 됩니다.
그러나 pypdf는 텍스트를 추출할 때 가끔씩 문제를 일으킬 수 있다는 점에 유의하는 것이 중요합니다. 예를 들어 단어와 문자 사이에 공백이 추가되어 추출된 콘텐츠의 정확도에 영향을 미칠 수 있습니다. 이러한 제한에도 불구하고 pypdf는 PDF 파일을 구문 분석하는 데 귀중한 자산으로 남아 있으며, 특히 텍스트의 정확한 서식이 주된 관심사가 아닌 시나리오에서 그렇습니다.