PdfPig: การดึงข้อความจาก PDF ขั้นสูงสำหรับ .NET

อ่านและวิเคราะห์เนื้อหา PDF โดยไม่ต้องพึ่งพาไลบรารีอื่น - ข้อความ ตำแหน่ง ฟอนต์ และข้อมูลเมตา

PdfPig คืออะไร?

PdfPig เป็นไลบรารี .NET แบบโอเพนซอร์สที่เน้นการดึงเนื้อหาจากไฟล์ PDF โดยไม่ต้องพึ่งพาไลบรารีอื่น ต่างจากตัวสร้าง PDF ทั่วไป PdfPig ออกแบบมาเพื่ออ่านเอกสารที่มีอยู่เพื่อเข้าถึงข้อความ ข้อมูลฟอนต์ ข้อมูลตำแหน่ง และโครงสร้างเอกสาร เป็นเครื่องมือที่มีประโยชน์อย่างยิ่งสำหรับการทำเหมืองข้อมูล การวิเคราะห์เนื้อหา และกระบวนการประมวลผลเอกสาร

จุดเด่นหลักของ PdfPig:

  • ไม่ต้องพึ่งพาไลบรารีอื่น: ถูกเขียนด้วย C# ล้วน
  • การเข้าถึงระดับต่ำ: สามารถระบุตำแหน่งข้อความและวัดขนาดฟอนต์ได้อย่างแม่นยำ
  • ใช้หน่วยความจำอย่างมีประสิทธิภาพ: จัดการกับเอกสารขนาดใหญ่โดยใช้ทรัพยากรน้อย
  • พร้อมใช้งานกับ OCR: ดึงข้อความพร้อมกรอบสี่เหลี่ยมสำหรับการวิเคราะห์
  • สัญญาอนุญาต MIT: ใช้ฟรีสำหรับการใช้งานเชิงพาณิชย์

เหมาะสำหรับการวิเคราะห์เอกสาร การดึงข้อความ และการประมวลผลเนื้อหา PDF

GitHub

สถิติ GitHub

ชื่อ:
ภาษา:
ดาว:
ส้อม:
ใบอนุญาต:
พื้นที่เก็บข้อมูลได้รับการอัปเดตครั้งล่าสุดเมื่อ

ทำไมควรเลือก PdfPig?

  • ความแม่นยำ: จัดการกับรูปแบบข้อความ PDF ที่ซับซ้อนได้ถูกต้อง
  • ประสิทธิภาพ: ทำงานเร็วกว่าไลบรารี .NET อื่นๆ ที่คล้ายกัน
  • ความโปร่งใส: เข้าถึงโครงสร้าง PDF ดิบเมื่อจำเป็น
  • มีการพัฒนาอย่างต่อเนื่อง: อัปเดตเป็นประจำตั้งแต่ปี 2018
  • ข้ามแพลตฟอร์ม: ทำงานบน .NET Standard 2.0+

การติดตั้ง

PdfPig มีให้ใช้งานผ่าน NuGet เพื่อการรวมเข้ากับโปรเจคอย่างง่ายดาย:

Package Manager Console


Install-Package PdfPig

.NET CLI


dotnet add package PdfPig

ข้อกำหนดระบบ: รันไทม์ที่รองรับ .NET Standard 2.0

ตัวอย่างโค้ด

ตัวอย่างการใช้งานจริงของความสามารถ PdfPig:

การดึงข้อมูลด้วย PdfPig

ตัวอย่าง 1: การดึงข้อความพื้นฐาน

ตัวอย่างนี้แสดงวิธีการเปิดเอกสาร PDF และดึงเนื้อหาข้อความทั้งหมดโดยรักษาลำดับการอ่าน PdfPig ให้เข้าถึงแต่ละตัวอักษรพร้อมตำแหน่งที่แน่นอนในเอกสาร

ผลลัพธ์ประกอบด้วย:

  • เนื้อหาข้อความดิบตามลำดับการอ่าน
  • หมายเลขหน้าสำหรับแต่ละส่วนของข้อความ
  • ข้อมูลพื้นฐานเกี่ยวกับฟอนต์

ตัวอย่าง 2: การวิเคราะห์ตำแหน่งขั้นสูง

PdfPig โดดเด่นในการให้ข้อมูลตำแหน่งที่แม่นยำสำหรับองค์ประกอบข้อความ ตัวอย่างนี้แสดงวิธีการดึงคำพร้อมกรอบสี่เหลี่ยม

ตัวอย่าง 3: การดึงฟอนต์และข้อมูลเมตา

นอกจากเนื้อหาข้อความแล้ว PdfPig ยังให้เข้าถึงข้อมูลเมตาของเอกสารและข้อมูลรายละเอียดเกี่ยวกับฟอนต์

คุณสมบัติขั้นสูง

PdfPig รองรับการวิเคราะห์ PDF ระดับมืออาชีพ:

  • การดึงรูปภาพ: เข้าถึงรูปภาพที่ฝังอยู่:

    การดึงรูปภาพ

    
        using var document = PdfDocument.Open("ไฟล์.pdf");
        foreach (var page in document.GetPages())
        {
            foreach (var image in page.GetImages())
            {
                var bytes = image.RawBytes;
                // ประมวลผลข้อมูลรูปภาพ
            }
        }
        
    
  • การนำทางด้วยบุ๊กมาร์ก: เข้าถึงโครงร่างเอกสาร:

    บุ๊กมาร์ก

    
        var bookmarks = document.GetBookmarks();
        foreach (var bookmark in bookmarks)
        {
            Console.WriteLine($"{bookmark.Title} - หน้า {bookmark.PageNumber}");
        }
        
    
  • PDF ที่เข้ารหัส: จัดการกับไฟล์ที่ป้องกันด้วยรหัสผ่าน:

    PDF ที่เข้ารหัส

    
        var options = new ParsingOptions
        {
            Password = "secure123"
        };
        using var doc = PdfDocument.Open("เข้ารหัส.pdf", options);
        
    

PdfPig vs PdfSharp

5 ความแตกต่างหลักระหว่าง PdfPig และ PDFsharp:

  • ฟังก์ชันหลัก: PdfPig เชี่ยวชาญการอ่าน/ดึงข้อความและข้อมูลเมตา PDFsharp มุ่งเน้นการสร้าง/แก้ไขเอกสาร PDF
  • ข้อความ vs กราฟิก: PdfPig ดึงข้อความด้วยความแม่นยำระดับพิกเซล PDFsharp ถูกปรับให้เหมาะกับการวาดข้อความ/รูปร่าง
  • การเข้าถึงเอกสาร: PdfPig วิเคราะห์ PDF ที่มีอยู่ PDFsharp สามารถแก้ไขหน้าได้
  • คุณสมบัติขั้นสูง: PdfPig เผยรายละเอียดฟอนต์และโครงสร้างเอกสาร PDFsharp รองรับมาตรฐาน PDF/A
  • กรณีการใช้งาน: PdfPig สำหรับการทำเหมืองข้อมูล PDFsharp สำหรับการสร้างรายงาน

สรุป

PdfPig ให้การเข้าถึงเนื้อหา PDF ที่ไม่มีใครเทียบได้สำหรับนักพัฒนา .NET เหมาะสำหรับ:

  • การดึงข้อมูล: การสกัดเนื้อหาจากรายงาน
  • การวิเคราะห์เอกสาร: การทำความเข้าใจโครงสร้าง PDF
  • การเข้าถึง: การแปลงเนื้อหา PDF เป็นรูปแบบอื่น
  • การประมวลผลล่วงหน้า: การเตรียมเอกสารสำหรับ OCR หรือ ML

ด้วยความแม่นยำในการดึงข้อมูลและการใช้หน่วยความจำที่ต่ำ PdfPig จึงเป็นตัวเลือกที่ดีที่สุดสำหรับการวิเคราะห์ PDF ใน .NET

สินค้าที่คล้ายกัน

 Thai