PdfPig: .NET용 고급 PDF 텍스트 추출
의존성 없이 PDF 콘텐츠 읽기 및 분석 - 텍스트, 위치, 글꼴 및 메타데이터
PdfPig이란?
PdfPig은 네이티브 종속성 없이 PDF 파일에서 콘텐츠를 추출하는 오픈 소스 .NET 라이브러리입니다. PDF 생성기와 달리 PdfPig은 기존 문서를 읽어 텍스트, 글꼴 정보, 위치 데이터 및 문서 구조에 액세스하는 데 특화되어 있습니다. 데이터 마이닝, 콘텐츠 분석 및 문서 처리 파이프라인에 특히 유용합니다.
PdfPig의 주요 장점:
- 종속성 없음: 순수 C# 구현
- 저수준 액세스: 정확한 텍스트 위치 지정 및 글꼴 메트릭
- 메모리 효율적: 최소 오버헤드로 대용량 문서 처리
- OCR 준비 완료: 분석을 위한 경계 상자와 함께 텍스트 추출
- MIT 라이선스: 상용 사용 무료
문서 분석, 텍스트 추출 및 PDF 콘텐츠 처리에 이상적입니다.
PdfPig을 선택해야 하는 이유
- 정확도: 복잡한 PDF 텍스트 레이아웃을 정확하게 처리
- 성능: 유사한 .NET 라이브러리보다 벤치마크에서 빠름
- 투명성: 필요 시 원시 PDF 구조에 액세스
- 활발한 개발: 2018년부터 정기적으로 업데이트
- 크로스 플랫폼: .NET Standard 2.0+에서 작동
설치
PdfPig은 NuGet을 통해 쉽게 통합할 수 있습니다:
패키지 관리자 콘솔
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
시스템 요구 사항: .NET Standard 2.0 호환 런타임
코드 예제
PdfPig의 기능을 보여주는 실용적인 예제:
예제 1: 기본 텍스트 추출
이 예제는 PDF 문서를 열고 읽기 순서를 유지하면서 모든 텍스트 콘텐츠를 추출하는 방법을 보여줍니다. PdfPig은 문서에서 각 문자의 정확한 위치에 대한 액세스를 제공하여 단순한 텍스트 추출을 넘어선 고급 레이아웃 분석을 가능하게 합니다.
출력 내용:
- 읽기 순서의 원시 텍스트 콘텐츠
- 각 텍스트 세그먼트의 페이지 번호
- 기본 글꼴 정보
예제 2: 고급 위치 분석
PdfPig은 텍스트 요소에 대한 정확한 위치 데이터를 제공합니다. 이 예제는 경계 상자와 함께 단어를 추출하는 방법을 보여주며, 테이블 감지, 양식 처리 및 콘텐츠 영역 분석과 같은 작업을 가능하게 합니다.
예제 3: 글꼴 및 메타데이터 추출
텍스트 콘텐츠 외에도 PdfPig은 문서 메타데이터 및 상세한 글꼴 정보에 대한 액세스를 제공합니다. 이 예제는 문서 속성 추출 및 PDF 전체의 글꼴 사용 분석을 보여줍니다.
고급 기능
PdfPig은 전문적인 PDF 분석을 지원합니다:
- 이미지 추출: 내장된 이미지에 액세스:
이미지 추출
using var document = PdfDocument.Open("파일.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // 이미지 데이터 처리 } }
- 책갈피 탐색: 문서 개요에 액세스:
책갈피
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - 페이지 {bookmark.PageNumber}"); }
- 암호화된 PDF: 비밀번호로 보호된 파일 처리:
암호화된 PDF
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("암호화됨.pdf", options);
PdfPig vs PdfSharp
PdfPig과 PDFsharp의 5가지 주요 차이점:
- 주요 기능:PdfPig은 텍스트, 위치, 메타데이터 읽기/추출에 특화. PDFsharp은 PDF 문서 생성/편집에 중점
- 텍스트 vs 그래픽:PdfPig은 픽셀 단위 정밀도로 텍스트 추출(좌표 포함). PDFsharp은 텍스트/도형 그리기에 최적화(보고서, 송장, 양식)
- 문서 액세스:PdfPig은 기존 PDF 분석, PDFsharp은 페이지 수정, 콘텐츠 추가, 파일 병합 가능
- 고급 기능PdfPig은 글꼴 세부 정보, 경계 상자, 문서 구조 노출, PDFsharp은 PDF/A 표준, 이미지, 암호화 지원
- 사용 사례PdfPig은 데이터 마이닝, OCR 전처리, 콘텐츠 분석용, PDFsharp은 보고서 생성, PDF 조작, 양식 작성용
결론
PdfPig은 .NET 개발자에게 비교할 수 없는 PDF 콘텐츠 액세스를 제공합니다. 다음에 이상적:
- 데이터 추출: 보고서 및 문서에서 콘텐츠 마이닝
- 문서 분석: PDF 구조 및 레이아웃 이해
- 접근성: PDF 콘텐츠를 다른 형식으로 변환
- 전처리: OCR 또는 ML을 위한 문서 준비
정확한 콘텐츠 추출과 낮은 메모리 사용에 중점을 둔 PdfPig은 .NET에서 PDF 분석을 위한 최고의 선택입니다.