PdfPig: .NET용 고급 PDF 텍스트 추출

의존성 없이 PDF 콘텐츠 읽기 및 분석 - 텍스트, 위치, 글꼴 및 메타데이터

PdfPig이란?

PdfPig은 네이티브 종속성 없이 PDF 파일에서 콘텐츠를 추출하는 오픈 소스 .NET 라이브러리입니다. PDF 생성기와 달리 PdfPig은 기존 문서를 읽어 텍스트, 글꼴 정보, 위치 데이터 및 문서 구조에 액세스하는 데 특화되어 있습니다. 데이터 마이닝, 콘텐츠 분석 및 문서 처리 파이프라인에 특히 유용합니다.

PdfPig의 주요 장점:

종속성 없음: 순수 C# 구현
저수준 액세스: 정확한 텍스트 위치 지정 및 글꼴 메트릭
메모리 효율적: 최소 오버헤드로 대용량 문서 처리
OCR 준비 완료: 분석을 위한 경계 상자와 함께 텍스트 추출
MIT 라이선스: 상용 사용 무료

문서 분석, 텍스트 추출 및 PDF 콘텐츠 처리에 이상적입니다.

GitHub 통계

이름:
언어:
별:
포크:
특허:
저장소가 마지막으로 업데이트된 시간:

PdfPig을 선택해야 하는 이유

정확도: 복잡한 PDF 텍스트 레이아웃을 정확하게 처리
성능: 유사한 .NET 라이브러리보다 벤치마크에서 빠름
투명성: 필요 시 원시 PDF 구조에 액세스
활발한 개발: 2018년부터 정기적으로 업데이트
크로스 플랫폼: .NET Standard 2.0+에서 작동

설치

PdfPig은 NuGet을 통해 쉽게 통합할 수 있습니다:

패키지 관리자 콘솔


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

시스템 요구 사항: .NET Standard 2.0 호환 런타임

코드 예제

PdfPig의 기능을 보여주는 실용적인 예제:

PdfPig 추출

예제 1: 기본 텍스트 추출

이 예제는 PDF 문서를 열고 읽기 순서를 유지하면서 모든 텍스트 콘텐츠를 추출하는 방법을 보여줍니다. PdfPig은 문서에서 각 문자의 정확한 위치에 대한 액세스를 제공하여 단순한 텍스트 추출을 넘어선 고급 레이아웃 분석을 가능하게 합니다.

출력 내용:

읽기 순서의 원시 텍스트 콘텐츠
각 텍스트 세그먼트의 페이지 번호
기본 글꼴 정보

예제 2: 고급 위치 분석

PdfPig은 텍스트 요소에 대한 정확한 위치 데이터를 제공합니다. 이 예제는 경계 상자와 함께 단어를 추출하는 방법을 보여주며, 테이블 감지, 양식 처리 및 콘텐츠 영역 분석과 같은 작업을 가능하게 합니다.

예제 3: 글꼴 및 메타데이터 추출

텍스트 콘텐츠 외에도 PdfPig은 문서 메타데이터 및 상세한 글꼴 정보에 대한 액세스를 제공합니다. 이 예제는 문서 속성 추출 및 PDF 전체의 글꼴 사용 분석을 보여줍니다.

고급 기능

PdfPig은 전문적인 PDF 분석을 지원합니다:

이미지 추출: 내장된 이미지에 액세스:

이미지 추출


    using var document = PdfDocument.Open("파일.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // 이미지 데이터 처리
        }
    }

책갈피 탐색: 문서 개요에 액세스:

책갈피


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - 페이지 {bookmark.PageNumber}");
    }

암호화된 PDF: 비밀번호로 보호된 파일 처리:

암호화된 PDF


    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("암호화됨.pdf", options);

PdfPig vs PdfSharp

PdfPig과 PDFsharp의 5가지 주요 차이점:

주요 기능:PdfPig은 텍스트, 위치, 메타데이터 읽기/추출에 특화. PDFsharp은 PDF 문서 생성/편집에 중점
텍스트 vs 그래픽:PdfPig은 픽셀 단위 정밀도로 텍스트 추출(좌표 포함). PDFsharp은 텍스트/도형 그리기에 최적화(보고서, 송장, 양식)
문서 액세스:PdfPig은 기존 PDF 분석, PDFsharp은 페이지 수정, 콘텐츠 추가, 파일 병합 가능
고급 기능PdfPig은 글꼴 세부 정보, 경계 상자, 문서 구조 노출, PDFsharp은 PDF/A 표준, 이미지, 암호화 지원
사용 사례PdfPig은 데이터 마이닝, OCR 전처리, 콘텐츠 분석용, PDFsharp은 보고서 생성, PDF 조작, 양식 작성용

결론

PdfPig은 .NET 개발자에게 비교할 수 없는 PDF 콘텐츠 액세스를 제공합니다. 다음에 이상적:

데이터 추출: 보고서 및 문서에서 콘텐츠 마이닝
문서 분석: PDF 구조 및 레이아웃 이해
접근성: PDF 콘텐츠를 다른 형식으로 변환
전처리: OCR 또는 ML을 위한 문서 준비

정확한 콘텐츠 추출과 낮은 메모리 사용에 중점을 둔 PdfPig은 .NET에서 PDF 분석을 위한 최고의 선택입니다.