Apache PDFBox: Uirlisí PDF Iomlána do Java
Aistrigh téacs, déan ionramháil ar dhoiciméid, líon foirmeacha agus níos mó - uile i Java íon
Cad é Apache PDFBox?
Is leabharlann Java foinse oscailte cumhachtach é Apache PDFBox atá deartha le haghaidh próiseála PDF éasca i Java, ag ligeadh d’fhorbróirí ábhar a chruthú, a chur in eagar agus a aistriú ó dhoiciméid PDF go cláir. Mar cheann de na leabharlanna PDF Java is coitianta, tá PDFBox thar barr le haghaidh tascanna cosúil le téacs a aistriú ó PDFanna, comhaid PDF iolracha a chumasc, agus lámhscríbhinní digiteacha a chur leis - uile le API éadrom agus gan aon chostais ceadúnais. Cibé an gá duit anailís PDF i Java, giniúint PDF nó comhlíonadh PDF/A, tacaíonn an leabharlann seo le gnéithe casta cosúil le comhtháthú OCR, líonadh foirmeacha, agus comhshó HTML go PDF. Le spleáchais Maven-réidh (m.sh. pdfbox-maven) agus doiciméadú fairsing, simplíonn PDFBox sreabhadh oibre casta - rud a fhágann go bhfuil sé idéalach d’fheidhmchláir fiontair, uathoibriú doiciméad, agus aistriú sonraí. I gcomparáid le roghanna eile cosúil le iText, tá Apache PDFBox thar barr mar gheall ar a solúbthacht foinse oscailte, pobal gníomhach agus comhoiriúnacht ilardán. Déan iniúchadh ar ár dtreoir PDFBox chun samplaí cód Java a fháil agus cumas iomlán ionramhála PDF i Java a scaoileadh.
Buntáistí móra PDFBox:
- Réiteach iomlán: Cumais aistrithe agus cruthaithe araon
- Java íon: Gan aon spleáchas dúchais
- Forbairt gníomhach: Tacaíocht ó Apache Software Foundation
- Gnéithe cuimsitheacha: Aistriú téacs, roinnt, cumasc, síniú
- Tacaíocht foirmeacha: Léamh agus líonadh foirmeacha PDF
Ideálach do chórais bainistíochta doiciméad, aistriú ábhair agus uathoibriú PDF.
Cén fáth PDFBox a roghnú?
- Aibíocht: Cobhsaí ó 2002 le nuashonruithe rialta
- Ilchumasacht: Cumais léitheoireachta agus scríofa araon
- Tacaíocht caighdeán: Láimhseálann doiciméid PDF 1.7 agus PDF/A
- Pobal: Bunús mór úsáideoirí agus doiciméadú fairsing
- Comhtháthú: Oibríonn le gach creat bunaithe ar Java
Suiteáil
Tá PDFBox ar fáil trí Maven Central le haghaidh comhtháthú éasca:
Maven
org.apache.pdfbox
pdfbox
3.0.0
Gradle
implementation 'org.apache.pdfbox:pdfbox:3.0.0'
Riachtanais chórais: Java 8 nó níos déanaí
Samplaí Cód
Samplaí praiticiúla de chumais PDFBox:
Sampla 1: Aistriú téacs bunúsach ó dhoiciméad PDF i Java
Taispeánann an sampla seo conas téacs a aistriú ó dhoiciméad PDF agus formáidiú agus struchtúr a chaomhnú. Soláthraíonn PDFBox cumais aistrithe téacs chasta a choinníonn ord léitheoireachta agus a láimhseálann leaganacha casta.
Áirítear san aschur:
- Ábhar téacs struchtúrtha
- Aistriú leathanach ar leathanach
- Caomhnú bunfhormáidithe
Sampla 2: Cruthú doiciméid PDF ón tús i Java
Tá PDFBox thar barr ag léamh agus ag cruthú PDFanna. Taispeánann an sampla seo giniúint doiciméad PDF nua le téacs agus bunfhormáidiú.
Sampla 3: Ceanntásca agus buntásca a chur le leathanaigh PDF i Java
Soláthraíonn PDFBox tacaíocht chuimsitheach chun ceanntásca agus buntásca a chur le leathanaigh PDF ó d’fheidhmchlár Java. Taispeánann an sampla cód thíos conas é seo a bhaint amach ag baint úsáide as API PDFBox do Java.
Gnéithe Casta
Tacaíonn PDFBox le próiseáil gairmiúil PDF:
- Aistriú íomhánna: Rocht ar íomhánna leabaithe:
Aistriú Íomhá
PDDocument document = PDDocument.load(new File("document.pdf")); for (PDPage page : document.getPages()) { PDResources resources = page.getResources(); for (COSName name : resources.getXObjectNames()) { PDXObject xobject = resources.getXObject(name); if (xobject instanceof PDImageXObject) { BufferedImage image = ((PDImageXObject) xobject).getImage(); // Próiseáil íomhá } } }
- Roinnt doiciméad: PDFanna a roinnt ina n-íosmhéid comhad:
Roinnt PDF
Splitter splitter = new Splitter(); List
pages = splitter.split(document); for (int i = 0; i < pages.size(); i++) { pages.get(i).save("page-" + (i+1) + ".pdf"); } - PDFanna criptithe: Comhaid faoi chosaint pasfhocail a láimhseáil:
PDF Criptithe
String password = "secure123"; FileInputStream fis = new FileInputStream("encrypted.pdf"); PDDocument doc = PDDocument.load(fis, password);
PDFBox vs iText
Seo 5 phríomhdhifríocht idir PDFBox agus iText:
- Ceadúnas: PDFBox faoi cheadúnas Apache (foinse oscailte), agus ceadúnas tráchtála ag iText do chuid is mó úsáid
- Fócas gnéithe: Tugann PDFBox cumais léitheoireachta/scríofa cothrom, agus speisialtóireacht ag iText i nginiúint PDF
- Feidhmíocht: Bíonn iText níos tapúla i gcruthú doiciméad, agus PDFBox thar barr le haghaidh aistriú téacs
- Pobal: Tá glacadh níos leithne foinse oscailte ag PDFBox, agus tacaíocht ghairmiúil ag iText
- Cásanna úsáide: Tá PDFBox idéalach le haghaidh anailíse agus ionramhála bunúsacha, agus tá iText níos fearr le haghaidh giniúint PDF ar scála mór
Conclúid
Soláthraíonn Apache PDFBox próiseáil chuimsitheach PDF d’fhorbróirí Java. Ideálach le haghaidh:
- Aistriú ábhair: Mianadóireacht téacs agus sonraí ó PDFanna
- Uathoibriú doiciméad: Giniúint tuarascálacha agus foirmeacha
- Bainistíocht doiciméad: Roinnt, cumasc agus claochlú PDFanna
- Próiseáil foirmeacha: Léamh agus líonadh foirmeacha idirghníomhacha
Lena cheadúnas foinse oscailte agus a thacar gnéithe cuimsitheach, is é PDFBox an rogha is fearr le haghaidh próiseála PDF bunaithe ar Java.