Apache PDFBox: Pilnīgs PDF rīku komplekts Java
Izvilkšana tekstu, dokumentu manipulācija, formu aizpildīšana un vairāk - viss tīrā Java
Kas ir Apache PDFBox?
Apache PDFBox ir jaudīga atvērtā koda Java bibliotēka, kas paredzēta vienkāršai PDF apstrādei Java, ļaujot izstrādātājiem programmatiski izveidot, rediģēt un iegūt saturu no PDF dokumentiem. Kā viena no populārākajām Java PDF bibliotēkām, PDFBox izceļas ar tādiem uzdevumiem kā teksta iegūšana no PDF, vairāku PDF failu apvienošana un digitālo parakstu pievienošana, visu ar vieglu API un bez licences maksas. Vienalga, vai jums nepieciešama PDF parsēšana Java, PDF ģenerēšana vai PDF/A atbilstība, šī bibliotēka atbalsta tādas uzlabotas funkcijas kā OCR integrācija, formu aizpildīšana un HTML uz PDF konvertēšana. Ar Maven atbalstītām atkarībām (piem., pdfbox-maven) un visaptverošu dokumentāciju, PDFBox vienkāršo sarežģītus darba procesus - padarot to ideālu uzņēmumu lietotnēm, dokumentu automatizācijai un datu iegūšanai. Salīdzinot ar alternatīvām kā iText, Apache PDFBox izceļas ar atvērtā koda elastību, aktīvu kopienu un starpplatformu saderību. Apmeklējiet mūsu PDFBox apmācību, lai izpētītu Java kodu piemērus un atklātu pilnu PDF manipulācijas potenciālu Java.
PDFBox galvenās priekšrocības:
- Pilnīgs risinājums: Gan izvilkšanas, gan izveides iespējas
- Tīra Java: Bez nātisko atkarību
- Aktīva izstrāde: Atbalstīta no Apache programmatūras fonda
- Visaptverošas funkcijas: Teksta izvilkšana, sadalīšana, apvienošana, parakstīšana
- Formu atbalsts: Lasīt un aizpildīt PDF formas
Ideāls dokumentu pārvaldības sistēmām, satura iegūšanai un PDF automatizācijai.
Kāpēc izvēlēties PDFBox?
- Nobriedums: Stabils kopš 2002. gada ar regulāriem atjauninājumiem
- Daudzpusība: Gan lasīšanas, gan rakstīšanas iespējas
- Standartu atbalsts: Apstrādā PDF 1.7 un PDF/A dokumentus
- Kopiena: Liela lietotāju bāze un visaptveroša dokumentācija
- Integrācija: Darbojas ar visām Java balstītām sistēmām
Instalēšana
PDFBox ir pieejams caur Maven Central vienkāršai integrācijai:
Maven
org.apache.pdfbox
pdfbox
3.0.0
Gradle
implementation 'org.apache.pdfbox:pdfbox:3.0.0'
Sistēmas prasības: Java 8 vai jaunāka
Koda piemēri
Praktiski PDFBox iespēju piemēri:
1. piemērs: Pamata teksta izvilkšana no PDF dokumenta Java
Šis piemērs parāda, kā iegūt tekstu no PDF dokumenta, saglabājot formatējumu un struktūru. PDFBox nodrošina uzlabotas teksta izvilkšanas iespējas, kas saglabā lasīšanas secību un apstrādā sarežģītus izkārtojumus.
Izvadā iekļauts:
- Strukturēts teksta saturs
- Lapu pa lapai izvilkšana
- Pamata formatējuma saglabāšana
2. piemērs: PDF dokumenta izveide no nulles Java
PDFBox lieliski padodas gan lasīšanā, gan PDF izveidē. Šis piemērs demonstrē jauna PDF dokumenta izveidi ar tekstu un pamata formatējumu.
3. piemērs: Galvenes un kājenes pievienošana PDF lapām Java
PDFBox nodrošina visaptverošu atbalstu galveņu un kājeņu pievienošanai PDF lapām no jūsu Java lietotnes. Šis koda paraugs parāda, kā to panākt, izmantojot PDFBox API Java.
Paplašinātas funkcijas
PDFBox atbalsta profesionālu PDF apstrādi:
- Attēlu izvilkšana: Piekļuve iegultiem attēliem:
Attēlu izvilkšana
PDDocument document = PDDocument.load(new File("document.pdf")); for (PDPage page : document.getPages()) { PDResources resources = page.getResources(); for (COSName name : resources.getXObjectNames()) { PDXObject xobject = resources.getXObject(name); if (xobject instanceof PDImageXObject) { BufferedImage image = ((PDImageXObject) xobject).getImage(); // Apstrādāt attēlu } } }
- Dokumentu sadalīšana: PDF iedalīšana vairākos failos:
PDF sadalīšana
Splitter splitter = new Splitter(); List
pages = splitter.split(document); for (int i = 0; i < pages.size(); i++) { pages.get(i).save("lapa-" + (i+1) + ".pdf"); } - Šifrēti PDF: Paroli aizsargātu failu apstrāde:
Šifrēts PDF
String password = "secure123"; FileInputStream fis = new FileInputStream("encrypted.pdf"); PDDocument doc = PDDocument.load(fis, password);
PDFBox vs iText
Šeit ir 5 galvenās atšķirības starp PDFBox un iText:
- Licence: PDFBox ir Apache licence (atvērtā koda), kamēr iText lielākajai daļai lietojumiem nepieciešama komerclicence
- Funkcionalitātes fokuss: PDFBox piedāvā balansētas lasīšanas/rakstīšanas iespējas, kamēr iText specializējas PDF ģenerēšanā
- Veiktspēja: iText parasti ir ātrāks dokumentu izveidē, kamēr PDFBox izceļas teksta izvilkšanā
- Kopiena: PDFBox ir plašāks atvērtā koda pielietojums, kamēr iText piedāvā profesionālu atbalstu
- Lietojuma gadījumi: PDFBox ir ideāls analīzei un pamata manipulācijai, kamēr iText ir labāks lielapjoma PDF ģenerēšanai
Secinājumi
Apache PDFBox piedāvā visaptverošu PDF apstrādi Java izstrādātājiem. Ideāls:
- Satura iegūšanai: Teksta un datu ieguvei no PDF
- Dokumentu automatizācijai: Pārskatu un veidņu ģenerēšanai
- Dokumentu pārvaldībai: PDF sadalīšanai, apvienošanai un pārveidošanai
- Veidņu apstrādei: Interaktīvu veidņu lasīšanai un aizpildīšanai
Ar atvērtā koda licenci un visaptverošu funkciju kopu, PDFBox ir galvenā izvēle Java balstītai PDF apstrādei.