PdfPig: การดึงข้อความจาก PDF ขั้นสูงสำหรับ .NET

อ่านและวิเคราะห์เนื้อหา PDF โดยไม่ต้องพึ่งพาไลบรารีอื่น - ข้อความ ตำแหน่ง ฟอนต์ และข้อมูลเมตา

PdfPig คืออะไร?

PdfPig เป็นไลบรารี .NET แบบโอเพนซอร์สที่เน้นการดึงเนื้อหาจากไฟล์ PDF โดยไม่ต้องพึ่งพาไลบรารีอื่น ต่างจากตัวสร้าง PDF ทั่วไป PdfPig ออกแบบมาเพื่ออ่านเอกสารที่มีอยู่เพื่อเข้าถึงข้อความ ข้อมูลฟอนต์ ข้อมูลตำแหน่ง และโครงสร้างเอกสาร เป็นเครื่องมือที่มีประโยชน์อย่างยิ่งสำหรับการทำเหมืองข้อมูล การวิเคราะห์เนื้อหา และกระบวนการประมวลผลเอกสาร

จุดเด่นหลักของ PdfPig:

ไม่ต้องพึ่งพาไลบรารีอื่น: ถูกเขียนด้วย C# ล้วน
การเข้าถึงระดับต่ำ: สามารถระบุตำแหน่งข้อความและวัดขนาดฟอนต์ได้อย่างแม่นยำ
ใช้หน่วยความจำอย่างมีประสิทธิภาพ: จัดการกับเอกสารขนาดใหญ่โดยใช้ทรัพยากรน้อย
พร้อมใช้งานกับ OCR: ดึงข้อความพร้อมกรอบสี่เหลี่ยมสำหรับการวิเคราะห์
สัญญาอนุญาต MIT: ใช้ฟรีสำหรับการใช้งานเชิงพาณิชย์

เหมาะสำหรับการวิเคราะห์เอกสาร การดึงข้อความ และการประมวลผลเนื้อหา PDF

สถิติ GitHub

ชื่อ:
ภาษา:
ดาว:
ส้อม:
ใบอนุญาต:
พื้นที่เก็บข้อมูลได้รับการอัปเดตครั้งล่าสุดเมื่อ

ทำไมควรเลือก PdfPig?

ความแม่นยำ: จัดการกับรูปแบบข้อความ PDF ที่ซับซ้อนได้ถูกต้อง
ประสิทธิภาพ: ทำงานเร็วกว่าไลบรารี .NET อื่นๆ ที่คล้ายกัน
ความโปร่งใส: เข้าถึงโครงสร้าง PDF ดิบเมื่อจำเป็น
มีการพัฒนาอย่างต่อเนื่อง: อัปเดตเป็นประจำตั้งแต่ปี 2018
ข้ามแพลตฟอร์ม: ทำงานบน .NET Standard 2.0+

การติดตั้ง

PdfPig มีให้ใช้งานผ่าน NuGet เพื่อการรวมเข้ากับโปรเจคอย่างง่ายดาย:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

ข้อกำหนดระบบ: รันไทม์ที่รองรับ .NET Standard 2.0

ตัวอย่างโค้ด

ตัวอย่างการใช้งานจริงของความสามารถ PdfPig:

การดึงข้อมูลด้วย PdfPig

ตัวอย่าง 1: การดึงข้อความพื้นฐาน

ตัวอย่างนี้แสดงวิธีการเปิดเอกสาร PDF และดึงเนื้อหาข้อความทั้งหมดโดยรักษาลำดับการอ่าน PdfPig ให้เข้าถึงแต่ละตัวอักษรพร้อมตำแหน่งที่แน่นอนในเอกสาร

ผลลัพธ์ประกอบด้วย:

เนื้อหาข้อความดิบตามลำดับการอ่าน
หมายเลขหน้าสำหรับแต่ละส่วนของข้อความ
ข้อมูลพื้นฐานเกี่ยวกับฟอนต์

ตัวอย่าง 2: การวิเคราะห์ตำแหน่งขั้นสูง

PdfPig โดดเด่นในการให้ข้อมูลตำแหน่งที่แม่นยำสำหรับองค์ประกอบข้อความ ตัวอย่างนี้แสดงวิธีการดึงคำพร้อมกรอบสี่เหลี่ยม

ตัวอย่าง 3: การดึงฟอนต์และข้อมูลเมตา

นอกจากเนื้อหาข้อความแล้ว PdfPig ยังให้เข้าถึงข้อมูลเมตาของเอกสารและข้อมูลรายละเอียดเกี่ยวกับฟอนต์

คุณสมบัติขั้นสูง

PdfPig รองรับการวิเคราะห์ PDF ระดับมืออาชีพ:

การดึงรูปภาพ: เข้าถึงรูปภาพที่ฝังอยู่:

การดึงรูปภาพ


    using var document = PdfDocument.Open("ไฟล์.pdf");
    foreach (var page in document.GetPages())
    {
        foreach (var image in page.GetImages())
        {
            var bytes = image.RawBytes;
            // ประมวลผลข้อมูลรูปภาพ
        }
    }

การนำทางด้วยบุ๊กมาร์ก: เข้าถึงโครงร่างเอกสาร:

บุ๊กมาร์ก


    var bookmarks = document.GetBookmarks();
    foreach (var bookmark in bookmarks)
    {
        Console.WriteLine($"{bookmark.Title} - หน้า {bookmark.PageNumber}");
    }

PDF ที่เข้ารหัส: จัดการกับไฟล์ที่ป้องกันด้วยรหัสผ่าน:
PDF ที่เข้ารหัส
```
    var options = new ParsingOptions
    {
        Password = "secure123"
    };
    using var doc = PdfDocument.Open("เข้ารหัส.pdf", options);
    
```

PdfPig vs PdfSharp

5 ความแตกต่างหลักระหว่าง PdfPig และ PDFsharp:

ฟังก์ชันหลัก: PdfPig เชี่ยวชาญการอ่าน/ดึงข้อความและข้อมูลเมตา PDFsharp มุ่งเน้นการสร้าง/แก้ไขเอกสาร PDF
ข้อความ vs กราฟิก: PdfPig ดึงข้อความด้วยความแม่นยำระดับพิกเซล PDFsharp ถูกปรับให้เหมาะกับการวาดข้อความ/รูปร่าง
การเข้าถึงเอกสาร: PdfPig วิเคราะห์ PDF ที่มีอยู่ PDFsharp สามารถแก้ไขหน้าได้
คุณสมบัติขั้นสูง: PdfPig เผยรายละเอียดฟอนต์และโครงสร้างเอกสาร PDFsharp รองรับมาตรฐาน PDF/A
กรณีการใช้งาน: PdfPig สำหรับการทำเหมืองข้อมูล PDFsharp สำหรับการสร้างรายงาน

สรุป

PdfPig ให้การเข้าถึงเนื้อหา PDF ที่ไม่มีใครเทียบได้สำหรับนักพัฒนา .NET เหมาะสำหรับ:

การดึงข้อมูล: การสกัดเนื้อหาจากรายงาน
การวิเคราะห์เอกสาร: การทำความเข้าใจโครงสร้าง PDF
การเข้าถึง: การแปลงเนื้อหา PDF เป็นรูปแบบอื่น
การประมวลผลล่วงหน้า: การเตรียมเอกสารสำหรับ OCR หรือ ML

ด้วยความแม่นยำในการดึงข้อมูลและการใช้หน่วยความจำที่ต่ำ PdfPig จึงเป็นตัวเลือกที่ดีที่สุดสำหรับการวิเคราะห์ PDF ใน .NET