PdfPig: Uzlabota PDF teksta izgūšana priekš .NET
Lasiet un analizējiet PDF saturu bez atkarībām - teksts, pozīcijas, fonti un metadati
Kas ir PdfPig?
PdfPig ir atvērtā koda .NET bibliotēka, kas specializējas satura izgūšanai no PDF failiem bez jebkādām atkarībām. Atšķirībā no PDF ģeneratoriem, PdfPig koncentrējas uz esošu dokumentu lasīšanu, lai piekļūtu tekstam, fonta informācijai, pozīcijas datiem un dokumenta struktūrai. Īpaši noderīgs datu ieguvei, satura analīzei un dokumentu apstrādes procesiem.
Galvenās PdfPig priekšrocības:
- Nav atkarību: Tīra C# implementācija
- Zema līmeņa piekļuve: Precīza teksta pozicionēšana un fonta metriki
- Atmiņas efektivitāte: Apstrādā lielus dokumentus ar minimālu papildu slodzi
- Gatavs OCR: Izgūst tekstu ar ierobežojošiem kastītiem analīzei
- MIT licence: Bezmaksas komerciālai lietošanai
Ideāls dokumentu analīzei, teksta izgūšanai un PDF satura apstrādei.
Kāpēc izvēlēties PdfPig?
- Precizitāte: Pareizi apstrādā sarežģītus PDF teksta izkārtojumus
- Veiktspēja: Ātrāks nekā līdzīgas .NET bibliotēkas testos
- Caurspīdīgums: Piekļuve neapstrādātām PDF struktūrām pēc vajadzības
- Aktīva izstrāde: Regulāri atjauninājumi kopš 2018. gada
- Platformu neatkarīgs: Darbojas ar .NET Standard 2.0+
Instalēšana
PdfPig ir pieejams caur NuGet vienkāršai integrācijai:
Package Manager Console
Install-Package PdfPig
.NET CLI
dotnet add package PdfPig
Sistēmas prasības: .NET Standard 2.0 saderīga izpildlaika vide
Koda piemēri
Praktiski PdfPig iespēju piemēri:
1. piemērs: Pamata teksta izgūšana
Šis piemērs parāda, kā atvērt PDF dokumentu un izgūt visu teksta saturu, saglabājot lasīšanas secību. PdfPig nodrošina piekļuvi katram burtam ar tā precīzu atrašanās vietu dokumentā, ļaujot veikt uzlabotu izkārtojuma analīzi, kas pārsniedz vienkāršu teksta izgūšanu.
Izvade ietver:
- Neapstrādātu teksta saturu lasīšanas secībā
- Lapu numurus katram teksta segmentam
- Pamata fonta informāciju
2. piemērs: Uzlabota pozīcijas analīze
PdfPig izceļas, nodrošinot precīzus pozīcijas datus teksta elementiem. Šis piemērs parāda, kā izgūt vārdus ar to ierobežojošajiem kastītiem, ļaujot veikt uzdevumus, piemēram, tabulu noteikšanu, veidņu apstrādi un satura apgabalu analīzi.
3. piemērs: Fonta un metadatu izgūšana
Papildus teksta saturam, PdfPig nodrošina piekļuvi dokumenta metadatiem un detalizētai fonta informācijai. Šis piemērs parāda dokumenta īpašību izgūšanu un fonta izmantošanas analīzi visā PDF.
Uzlabotas funkcijas
PdfPig atbalsta profesionālu PDF analīzi:
- Attēlu izgūšana: Piekļuve iegultiem attēliem:
Attēlu izgūšana
using var document = PdfDocument.Open("fails.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Apstrādāt attēla datus } }
- Grāmatzīmju navigācija: Piekļuve dokumenta struktūrai:
Grāmatzīmes
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - Lapa {bookmark.PageNumber}"); }
- Šifrēti PDF: Paroles aizsargātu failu apstrāde:
Šifrēts PDF
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("šifrēts.pdf", options);
PdfPig vs PdfSharp
Šeit ir 5 galvenās atšķirības starp PdfPig un PDFsharp:
- Galvenā funkcija:PdfPig specializējas teksta, pozīciju un metadatu lasīšanā/izgūšanā. PDFsharp koncentrējas uz PDF dokumentu izveidi/rediģēšanu
- Teksts vs grafika:PdfPig izgūst tekstu pikseļu precizitātē (ieskaitot koordinātas). PDFsharp ir optimizēts teksta/formu zīmēšanai (atskaites, rēķini, veidnes)
- Dokumenta piekļuve:PdfPig analizē esošus PDF, kamēr PDFsharp var modificēt lapas, pievienot saturu, apvienot failus
- Uzlabotas funkcijasPdfPig atklāj fonta detaļas, ierobežojošos kastītus un dokumenta struktūru, kamēr PDFsharp atbalsta PDF/A standartus, attēlus un šifrēšanu
- Lietošanas gadījumiPdfPig piemērots datu ieguvei, OCR priekšapstrādei, satura analīzei, kamēr PDFsharp piemērots atskaišu ģenerēšanai, PDF manipulācijai, veidņu aizpildīšanai
Secinājumi
PdfPig nodrošina nepiemērotu piekļuvi PDF saturam .NET izstrādātājiem. Ideāls:
- Datu izgūšanai: Satura ieguvei no atskaitēm un dokumentiem
- Dokumentu analīzei: PDF struktūras un izkārtojuma izpratnei
- Pieejamībai: PDF satura konvertēšanai citos formātos
- Priekšapstrādei: Dokumentu sagatavošanai OCR vai ML
Koncentrējoties uz precīzu satura izgūšanu un zemu atmiņas izmantošanu, PdfPig ir galvenais izvēles variants PDF analīzei .NET vidē.
Similar Products
- EasyOCR API – Visaptveroša optiskā rakstzīmju atpazīšana (OCR) Python vidē
- PaddleOCR API – Augstas veiktspējas optiskā rakstzīmju atpazīšana
- pdfminer.six Python bibliotēka | Izvilkt tekstu no PDF failiem
- PyMuPDF Python API | Uzlabota PDF parsēšana un ekstrakcija
- pypdf | Python bibliotēka efektīvai PDF parsēšanai