PdfPig: חילוץ טקסט מתקדם מ-PDF עבור .NET

קרא ונתח תוכן PDF ללא תלות חיצונית - טקסט, מיקומים, פונטים ומטא-נתונים

מה זה PdfPig?

PdfPig היא ספריית קוד פתוח ל-.NET המתמחה בחילוץ תוכן מקבצי PDF ללא תלות בספריות חיצוניות. בניגוד ליצרני PDF, PdfPig מתמחה בקריאת מסמכים קיימים כדי לגשת לטקסט, מידע על גופנים, נתוני מיקום ומבנה המסמך. היא שימושית במיוחד לכריית נתונים, ניתוח תוכן וצינורות עיבוד מסמכים.

יתרונות עיקריים של PdfPig:

  • ללא תלות חיצונית: מימוש מלא ב-C#
  • גישה ברמה נמוכה: מיקום מדויק של טקסט ומדדי גופן
  • חיסכון בזיכרון: מטפל במסמכים גדולים עם תקורה מינימלית
  • מוכן ל-OCR: מחלץ טקסט עם תיבות תוחם לניתוח
  • רישיון MIT: חינמי לשימוש מסחרי

אידיאלי לניתוח מסמכים, חילוץ טקסט ועיבוד תוכן PDF.

GitHub

סטטיסטיקות GitHub

שֵׁם:
שפה:
כוכבים:
מזלגות:
רישיון:
המאגר עודכן לאחרונה ב

למה לבחור ב-PdfPig?

  • דיוק: מטפל בפריסות טקסט מורכבות ב-PDF בצורה נכונה
  • ביצועים: מהיר יותר מספריות .NET דומות במבחני ביצועים
  • שקיפות: גישה למבני PDF גולמיים בעת הצורך
  • פיתוח פעיל: עדכונים סדירים מאז 2018
  • חוצה פלטפורמות: עובד עם .NET Standard 2.0+

התקנה

PdfPig זמין דרך NuGet לאינטגרציה קלה:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

דרישות מערכת: סביבת ריצה תואמת .NET Standard 2.0

דוגמאות קוד

דוגמאות מעשיות ליכולות של PdfPig:

חילוץ עם PdfPig

דוגמה 1: חילוץ טקסט בסיסי

דוגמה זו מדגימה כיצד לפתוח מסמך PDF ולחלץ את כל תוכן הטקסט תוך שמירה על סדר הקריאה. PdfPig מספק גישה לכל אות במיקומה המדויק במסמך, ומאפשר ניתוח פריסה מתקדם מעבר לחילוץ טקסט פשוט.

הפלט כולל:

  • תוכן טקסט גולמי בסדר קריאה
  • מספרי עמודים לכל קטע טקסט
  • מידע בסיסי על גופן

דוגמה 2: ניתוח מיקום מתקדם

PdfPig מצטיין במתן נתוני מיקום מדויקים לאלמנטי טקסט. דוגמה זו מראה כיצד לחלץ מילים עם תיבות התוחם שלהן, ומאפשרת משימות כמו זיהוי טבלאות, עיבוד טפסים וניתוח אזורי תוכן.

דוגמה 3: חילוץ גופנים ומטא-נתונים

מעבר לתוכן הטקסט, PdfPig מספק גישה למטא-נתונים של המסמך ומידע מפורט על גופנים. דוגמה זו מדגימה חילוץ תכונות מסמך וניתוח שימוש בגופנים ברחבי ה-PDF.

תכונות מתקדמות

PdfPig תומך בניתוח PDF מקצועי:

  • חילוץ תמונות: גישה לתמונות מוטבעות:

    חילוץ תמונות

    
        using var document = PdfDocument.Open("קובץ.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // עיבוד נתוני תמונה
            }
        }
        
    
  • ניווט בסימניות: גישה למבנה המסמך:

    סימניות

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - עמוד {bookmark.PageNumber}");
        }
        
    
  • PDFs מוצפנים: טיפול בקבצים מוגנים בסיסמה:

    PDF מוצפן

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("מוצפן.pdf", options);
        
    

PdfPig לעומת PdfSharp

להלן 5 ההבדלים העיקריים בין PdfPig ל-PDFsharp:

  • פונקציה עיקרית: PdfPig מתמחה בקריאה/חילוץ טקסט, מיקומים ומטא-נתונים. PDFsharp מתמקד ביצירה/עריכה של מסמכי PDF
  • טקסט לעומת גרפיקה: PdfPig מחלץ טקסט בדיוק פיקסלי (כולל קואורדינטות). PDFsharp מותאם לציור טקסט/צורות (דוחות, חשבוניות, טפסים)
  • גישה למסמך: PdfPig מנתח PDFs קיימים, בעוד PDFsharp יכול לשנות עמודים, להוסיף תוכן, למזג קבצים
  • תכונות מתקדמות PdfPig חושף פרטי גופנים, תיבות תוחם ומבנה מסמך, בעוד PDFsharp תומך בתקני PDF/A, תמונות והצפנה
  • מקרי שימוש PdfPig מתאים לכריית נתונים, עיבוד מקדים ל-OCR, ניתוח תוכן, בעוד PDFsharp מתאים ליצירת דוחות, מניפולציה ב-PDF, מילוי טפסים

סיכום

PdfPig מספק גישה חסרת תקדים לתוכן PDF למפתחי .NET. אידיאלי עבור:

  • חילוץ נתונים: כריית תוכן מדוחות ומסמכים
  • ניתוח מסמכים: הבנת מבנה ופריסת PDF
  • נגישות: המרת תוכן PDF לפורמטים אחרים
  • עיבוד מקדים: הכנת מסמכים ל-OCR או ML

עם דגש על חילוץ תוכן מדויק וצריכת זיכרון נמוכה, PdfPig היא הבחירה המובילה לניתוח PDF ב-.NET.

מוצרים דומים

 Hebrew