PdfPig: Aistriú Casta Téacs PDF do .NET
Léigh agus anailísigh ábhar PDF gan spleáchais - téacs, suíomhanna, clófhoirne agus meiteashonraí
Cad é PdfPig?
Is leabharlann foinse oscailte .NET é PdfPig atá dírithe ar ábhar a aistriú as comhaid PDF gan aon spleáchas dúchasach. Murab ionann agus gineadóirí PDF, tá PdfPig speisialaithe i ndoiciméid atá ann cheana a léamh chun rochtain a fháil ar théacs, faisnéis chló, sonraí suímh agus struchtúr an doiciméid. Tá sé thar a bheith úsáideach le haghaidh mianadóireachta sonraí, anailíse ábhair agus líon oibre próiseála doiciméad.
Príomhbhuntáistí PdfPig:
- Gan spleáchais: Cur i bhfeidhm íon C#
- Rochtain ardleibhéil: Suíomh cruinn téacs agus méadrachtaí cló
- Éifeachtach chuimhne: Láimhseálann doiciméid mhóra le himcall breise íosta
- Réidh le haghaidh OCR: Aistrigh téacs le boscaí teorann le haghaidh anailíse
- Ceadúnas MIT: Saor in aisce le haghaidh úsáide tráchtála
Ideálach le haghaidh anailíse doiciméad, aistriú téacs agus próiseáil ábhair PDF.
Cén fáth PdfPig a roghnú?
- Cruinneas: Láimhseálann leaganacha casta téacs PDF i gceart
- Feidhmíocht: Níos tapúla ná leabharlanna .NET den chineál céanna i dtástálacha
- Trédhearcacht: Rochtain ar struchtúir amh PDF nuair is gá
- Forbairt ghníomhach: Nuashonruithe rialta ó 2018 i leith
- Ilardán: Oibríonn le .NET Standard 2.0+
Suiteáil
Tá PdfPig ar fáil trí NuGet le haghaidh comhtháthú éasca:
Console Bainisteora Pacáiste
Install-Package PdfPig
CLI .NET
dotnet add package PdfPig
Riachtanais Chórais: Timthriall oibriúcháin comhoiriúnach .NET Standard 2.0
Samplaí Cóid
Samplaí praiticiúla de chumais PdfPig:
Sampla 1: Aistriú Buneolas Téacs
Léiríonn an sampla seo conas doiciméad PDF a oscailt agus gach aon ábhar téacs a aistriú agus ord na léitheoireachta á chaomhnú. Cuireann PdfPig rochtain ar gach litir lena suíomh cruinn sa doiciméad ar fáil, rud a ligeann d'anailís chasta leaganacha a dhéanamh seachas aistriú simplí téacs.
Áirítear san aschur:
- Ábhar téacs amh in ord léitheoireachta
- Uimhreacha leathanach do gach mír téacs
- Faisnéis bhunúsach chló
Sampla 2: Anailís Chasta Suímh
Tá PdfPig thar barr ag sonraí cruinne suímh a sholáthar d'eilimintí téacs. Léiríonn an sampla seo conas focail a aistriú lena mboscaí teorann, rud a ligeann do thascanna cosúil le braiteadh táblaí, próiseáil fhoirmeacha agus anailís réigiún ábhair a dhéanamh.
Sampla 3: Aistriú Cló agus Meiteashonraí
Seachas ábhar téacs, cuireann PdfPig rochtain ar mheiteashonraí doiciméid agus faisnéis chló mhionsonraithe ar fáil. Léiríonn an sampla seo airíonna doiciméad a aistriú agus úsáid chló ar fud an PDF a anailísiú.
Gnéithe Casta
Tacaíonn PdfPig le hanailís ghairmiúil PDF:
- Aistriú íomhá: Rochtain ar íomhánna leabaithe:
Aistriú Íomhá
using var document = PdfDocument.Open("comhad.pdf"); foreach (var page in document.GetPages()) { foreach (var image in page.GetImages()) { var bytes = image.RawBytes; // Próiseáil sonraí íomhá } }
- Nascleanúint leabharmharc: Rochtain ar imlíne an doiciméid:
Leabharmharcanna
var bookmarks = document.GetBookmarks(); foreach (var bookmark in bookmarks) { Console.WriteLine($"{bookmark.Title} - Leathanach {bookmark.PageNumber}"); }
- PDFchriptithe: Láimhseáil comhaid faoi chosaint phasfhocail:
PDF Criptithe
var options = new ParsingOptions { Password = "secure123" }; using var doc = PdfDocument.Open("criptithe.pdf", options);
PdfPig vs PdfSharp
Seo na 5 phríomhdhifríocht idir PdfPig agus PDFsharp:
- Príomhfheidhm: Tá PdfPig speisialaithe i dtéacs, suíomhanna agus meiteashonraí a léamh/a aistriú. Tá PDFsharp dírithe ar dhoiciméid PDF a chruthú/a chur in eagar
- Téacs vs grafaicí: Aistríonn PdfPig téacs le cruinneas picteilín (lena n-áirítear comhordanáidí). Tá PDFsharp optamaithe le haghaidh téacs/cruthanna a tharraingt (tuarascálacha, sonraisc, foirmí)
- Rochtain doiciméad: Anailísíonn PdfPig PDFanna atá ann cheana, agus is féidir le PDFsharp leathanaigh a mhodhnú, ábhar a chur leis, comhaid a chumasc
- Gnéithe Casta Nochtann PdfPig sonraí cló, boscaí teorann agus struchtúr doiciméad, agus tacaíonn PDFsharp le caighdeáin PDF/A, íomhánna agus criptiú
- Cásanna Úsáide Tá PdfPig oiriúnach le haghaidh mianadóireacht sonraí, réamhphróiseáil OCR, anailís ábhair, agus tá PDFsharp oiriúnach le haghaidh giniúint tuarascálacha, ionramháil PDF, líonadh foirmeacha
Conclúid
Soláthraíonn PdfPig rochtain gan sárú ar ábhar PDF d'fhorbróirí .NET. Ideálach le haghaidh:
- Aistriú sonraí: Mianadóireacht ábhair as tuarascálacha agus doiciméid
- Anailís doiciméad: Tuiscint ar struchtúr agus leagan PDF
- Inrochtanaíocht: Tiontú ábhair PDF go formáidí eile
- Réamhphróiseáil: Ullmhú doiciméad le haghaidh OCR nó ML
Le dhíriú ar aistriú cruinn ábhair agus úsáid íseal chuimhne, is é PdfPig an rogha is fearr le haghaidh anailíse PDF i .NET.