Apache PDFBox: Eina completa de PDF per a Java

Extreu text, manipula documents, omple formularis i molt més - tot en Java pur

Què és Apache PDFBox?

Apache PDFBox és una potent biblioteca de codi obert per a Java dissenyada per al processament senzill de PDFs, permetent als desenvolupadors crear, editar i extreure contingut de documents PDF programàticament. Com una de les biblioteques PDF més populars per a Java, PDFBox destaca en tasques com extreure text de PDFs, fusionar múltiples arxius PDF i afegir signatures digitals, tot amb una API lleugera i sense costos de llicència. Tant si necessites analitzar PDFs en Java, generar PDFs o complir amb l'estàndard PDF/A, aquesta biblioteca admet funcions avançades com integració OCR, ompliment de formularis i conversió d'HTML a PDF. Amb dependències preparades per a Maven (com pdfbox-maven) i documentació extensa, PDFBox simplifica fluxos de treball complexos, cosa que la fa ideal per a aplicacions empresarials, automatització de documents i extracció de dades. En comparació amb alternatives com iText, Apache PDFBox destaca per la seva flexibilitat de codi obert, comunitat activa i compatibilitat multiplataforma. Explora el nostre tutorial de PDFBox per descobrir exemples de codi Java i desbloquejar tot el potencial de la manipulació de PDFs en Java.

Avanatges clau de PDFBox:

Solució completa: Capacitats d'extracció i creació
Java pur: Sense dependències natives
Desenvolupament actiu: Recolzada per Apache Software Foundation
Funcions completes: Extracció de text, divisió, fusió, signatura
Suport per formularis: Llegir i omplir formularis PDF

Ideal per a sistemes de gestió de documents, extracció de contingut i automatització de PDFs.

Estadístiques de GitHub

Nom:
Llenguatge:
Estrelles:
Forquilles:
Llicència:
El repositori es va actualitzar per última vegada a

Per què triar PDFBox?

Maduresa: Estable des del 2002 amb actualitzacions regulars
Versatilitat: Capacitats de lectura i escriptura
Suport d'estàndards: Gestiona documents PDF 1.7 i PDF/A
Comunitat: Gran base d'usuaris i documentació extensa
Integració: Funciona amb tots els frameworks basats en Java

Instal·lació

PDFBox està disponible a Maven Central per a una integració fàcil:

Maven



    org.apache.pdfbox
    pdfbox
    3.0.0

Gradle


implementation 'org.apache.pdfbox:pdfbox:3.0.0'

Requisits del sistema: Java 8 o posterior

Exemples de codi

Exemples pràctics de les capacitats de PDFBox:

Apache PDFBox

Exemple 1: Extracció bàsica de text d'un document PDF en Java

Aquest exemple mostra com extreure text d'un document PDF mantenint el format i l'estructura. PDFBox ofereix capacitats avançades d'extracció de text que mantenen l'ordre de lectura i gestionen dissenys complexos.

La sortida inclou:

Contingut de text estructurat
Extracció pàgina per pàgina
Preservació bàsica del format

Exemple 2: Creació d'un document PDF des de zero en Java

PDFBox destaca tant en la lectura com en la creació de PDFs. Aquest exemple demostra com generar un nou document PDF amb text i format bàsic.

Exemple 3: Afegir capçaleres i peus de pàgina a pàgines PDF en Java

PDFBox ofereix suport complet per afegir capçaleres i peus de pàgina a pàgines PDF des de la teva aplicació Java. El següent exemple de codi mostra com aconseguir-ho utilitzant l'API de PDFBox per a Java.

Funcions avançades

PDFBox admet processament professional de PDFs:

Extracció d'imatges: Accés a imatges incrustades:

Extracció d'imatges


    PDDocument document = PDDocument.load(new File("document.pdf"));
    for (PDPage page : document.getPages()) {
        PDResources resources = page.getResources();
        for (COSName name : resources.getXObjectNames()) {
            PDXObject xobject = resources.getXObject(name);
            if (xobject instanceof PDImageXObject) {
                BufferedImage image = ((PDImageXObject) xobject).getImage();
                // Processar imatge
            }
        }
    }

Divisió de documents: Divideix PDFs en múltiples arxius:

Divisió de PDF


    Splitter splitter = new Splitter();
    List pages = splitter.split(document);
    for (int i = 0; i < pages.size(); i++) {
        pages.get(i).save("page-" + (i+1) + ".pdf");
    }

PDFs xifrats: Gestiona arxius protegits amb contrasenya:

PDF xifrat


    String password = "secure123";
    FileInputStream fis = new FileInputStream("encrypted.pdf");
    PDDocument doc = PDDocument.load(fis, password);

PDFBox vs iText

Aquestes són les 5 diferències clau entre PDFBox i iText:

Llicència: PDFBox té llicència Apache (codi obert), mentre que iText té una llicència comercial per a la majoria d'usos
Enfocament de funcions: PDFBox ofereix capacitats equilibrades de lectura/escriptura, mentre que iText s'especialitza en la generació de PDFs
Rendiment: iText és generalment més ràpid en la creació de documents, mentre que PDFBox destaca en l'extracció de text
Comunitat: PDFBox té una adopció més àmplia de codi obert, mentre que iText ofereix suport professional
Casos d'ús: PDFBox és ideal per a anàlisi i manipulació bàsica, mentre que iText és millor per a generació de PDFs en gran volum

Conclusió

Apache PDFBox ofereix un processament complet de PDFs per a desenvolupadors Java. Ideal per a:

Extracció de contingut: Mineria de text i dades de PDFs
Automatització de documents: Generació d'informes i formularis
Gestió de documents: Divisió, fusió i transformació de PDFs
Processament de formularis: Lectura i ompliment de formularis interactius

Amb la seva llicència de codi obert i conjunt complet de funcions, PDFBox és la primera elecció per al processament de PDFs basat en Java.