PdfPig: การดึงข้อความจาก PDF ขั้นสูงสำหรับ .NET
อ่านและวิเคราะห์เนื้อหา PDF โดยไม่ต้องพึ่งพาไลบรารีอื่น - ข้อความ ตำแหน่ง ฟอนต์ และข้อมูลเมตา
PdfPig คืออะไร?
PdfPig เป็นไลบรารี .NET แบบโอเพนซอร์สที่เน้นการดึงเนื้อหาจากไฟล์ PDF โดยไม่ต้องพึ่งพาไลบรารีอื่น ต่างจากตัวสร้าง PDF ทั่วไป PdfPig ออกแบบมาเพื่ออ่านเอกสารที่มีอยู่เพื่อเข้าถึงข้อความ ข้อมูลฟอนต์ ข้อมูลตำแหน่ง และโครงสร้างเอกสาร เป็นเครื่องมือที่มีประโยชน์อย่างยิ่งสำหรับการทำเหมืองข้อมูล การวิเคราะห์เนื้อหา และกระบวนการประมวลผลเอกสาร
จุดเด่นหลักของ PdfPig:
- ไม่ต้องพึ่งพาไลบรารีอื่น: ถูกเขียนด้วย C# ล้วน
- การเข้าถึงระดับต่ำ: สามารถระบุตำแหน่งข้อความและวัดขนาดฟอนต์ได้อย่างแม่นยำ
- ใช้หน่วยความจำอย่างมีประสิทธิภาพ: จัดการกับเอกสารขนาดใหญ่โดยใช้ทรัพยากรน้อย
- พร้อมใช้งานกับ OCR: ดึงข้อความพร้อมกรอบสี่เหลี่ยมสำหรับการวิเคราะห์
- สัญญาอนุญาต MIT: ใช้ฟรีสำหรับการใช้งานเชิงพาณิชย์
เหมาะสำหรับการวิเคราะห์เอกสาร การดึงข้อความ และการประมวลผลเนื้อหา PDF
ทำไมควรเลือก PdfPig?
- ความแม่นยำ: จัดการกับรูปแบบข้อความ PDF ที่ซับซ้อนได้ถูกต้อง
- ประสิทธิภาพ: ทำงานเร็วกว่าไลบรารี .NET อื่นๆ ที่คล้ายกัน
- ความโปร่งใส: เข้าถึงโครงสร้าง PDF ดิบเมื่อจำเป็น
- มีการพัฒนาอย่างต่อเนื่อง: อัปเดตเป็นประจำตั้งแต่ปี 2018
- ข้ามแพลตฟอร์ม: ทำงานบน .NET Standard 2.0+
การติดตั้ง
PdfPig มีให้ใช้งานผ่าน NuGet เพื่อการรวมเข้ากับโปรเจคอย่างง่ายดาย:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
ข้อกำหนดระบบ: รันไทม์ที่รองรับ .NET Standard 2.0
ตัวอย่างโค้ด
ตัวอย่างการใช้งานจริงของความสามารถ PdfPig:
ตัวอย่าง 1: การดึงข้อความพื้นฐาน
ตัวอย่างนี้แสดงวิธีการเปิดเอกสาร PDF และดึงเนื้อหาข้อความทั้งหมดโดยรักษาลำดับการอ่าน PdfPig ให้เข้าถึงแต่ละตัวอักษรพร้อมตำแหน่งที่แน่นอนในเอกสาร
ผลลัพธ์ประกอบด้วย:
- เนื้อหาข้อความดิบตามลำดับการอ่าน
- หมายเลขหน้าสำหรับแต่ละส่วนของข้อความ
- ข้อมูลพื้นฐานเกี่ยวกับฟอนต์
ตัวอย่าง 2: การวิเคราะห์ตำแหน่งขั้นสูง
PdfPig โดดเด่นในการให้ข้อมูลตำแหน่งที่แม่นยำสำหรับองค์ประกอบข้อความ ตัวอย่างนี้แสดงวิธีการดึงคำพร้อมกรอบสี่เหลี่ยม
ตัวอย่าง 3: การดึงฟอนต์และข้อมูลเมตา
นอกจากเนื้อหาข้อความแล้ว PdfPig ยังให้เข้าถึงข้อมูลเมตาของเอกสารและข้อมูลรายละเอียดเกี่ยวกับฟอนต์
คุณสมบัติขั้นสูง
PdfPig รองรับการวิเคราะห์ PDF ระดับมืออาชีพ:
- การดึงรูปภาพ: เข้าถึงรูปภาพที่ฝังอยู่:
การดึงรูปภาพ
using var document = PdfDocument.Open("ไฟล์.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // ประมวลผลข้อมูลรูปภาพ } }
- การนำทางด้วยบุ๊กมาร์ก: เข้าถึงโครงร่างเอกสาร:
บุ๊กมาร์ก
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - หน้า {bookmark.PageNumber}"); }
- PDF ที่เข้ารหัส: จัดการกับไฟล์ที่ป้องกันด้วยรหัสผ่าน:
PDF ที่เข้ารหัส
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("เข้ารหัส.pdf", options);
PdfPig vs PdfSharp
5 ความแตกต่างหลักระหว่าง PdfPig และ PDFsharp:
- ฟังก์ชันหลัก: PdfPig เชี่ยวชาญการอ่าน/ดึงข้อความและข้อมูลเมตา PDFsharp มุ่งเน้นการสร้าง/แก้ไขเอกสาร PDF
- ข้อความ vs กราฟิก: PdfPig ดึงข้อความด้วยความแม่นยำระดับพิกเซล PDFsharp ถูกปรับให้เหมาะกับการวาดข้อความ/รูปร่าง
- การเข้าถึงเอกสาร: PdfPig วิเคราะห์ PDF ที่มีอยู่ PDFsharp สามารถแก้ไขหน้าได้
- คุณสมบัติขั้นสูง: PdfPig เผยรายละเอียดฟอนต์และโครงสร้างเอกสาร PDFsharp รองรับมาตรฐาน PDF/A
- กรณีการใช้งาน: PdfPig สำหรับการทำเหมืองข้อมูล PDFsharp สำหรับการสร้างรายงาน
สรุป
PdfPig ให้การเข้าถึงเนื้อหา PDF ที่ไม่มีใครเทียบได้สำหรับนักพัฒนา .NET เหมาะสำหรับ:
- การดึงข้อมูล: การสกัดเนื้อหาจากรายงาน
- การวิเคราะห์เอกสาร: การทำความเข้าใจโครงสร้าง PDF
- การเข้าถึง: การแปลงเนื้อหา PDF เป็นรูปแบบอื่น
- การประมวลผลล่วงหน้า: การเตรียมเอกสารสำหรับ OCR หรือ ML
ด้วยความแม่นยำในการดึงข้อมูลและการใช้หน่วยความจำที่ต่ำ PdfPig จึงเป็นตัวเลือกที่ดีที่สุดสำหรับการวิเคราะห์ PDF ใน .NET