1. Productes
  2.   Editor
  3.   Java
  4.   Apache PDFBox
 
  

Apache PDFBox: Eina completa de PDF per a Java

Extreu text, manipula documents, omple formularis i molt més - tot en Java pur

Què és Apache PDFBox?

Apache PDFBox és una potent biblioteca de codi obert per a Java dissenyada per al processament senzill de PDFs, permetent als desenvolupadors crear, editar i extreure contingut de documents PDF programàticament. Com una de les biblioteques PDF més populars per a Java, PDFBox destaca en tasques com extreure text de PDFs, fusionar múltiples arxius PDF i afegir signatures digitals, tot amb una API lleugera i sense costos de llicència. Tant si necessites analitzar PDFs en Java, generar PDFs o complir amb l'estàndard PDF/A, aquesta biblioteca admet funcions avançades com integració OCR, ompliment de formularis i conversió d'HTML a PDF. Amb dependències preparades per a Maven (com pdfbox-maven) i documentació extensa, PDFBox simplifica fluxos de treball complexos, cosa que la fa ideal per a aplicacions empresarials, automatització de documents i extracció de dades. En comparació amb alternatives com iText, Apache PDFBox destaca per la seva flexibilitat de codi obert, comunitat activa i compatibilitat multiplataforma. Explora el nostre tutorial de PDFBox per descobrir exemples de codi Java i desbloquejar tot el potencial de la manipulació de PDFs en Java.

Avanatges clau de PDFBox:

  • Solució completa: Capacitats d'extracció i creació
  • Java pur: Sense dependències natives
  • Desenvolupament actiu: Recolzada per Apache Software Foundation
  • Funcions completes: Extracció de text, divisió, fusió, signatura
  • Suport per formularis: Llegir i omplir formularis PDF

Ideal per a sistemes de gestió de documents, extracció de contingut i automatització de PDFs.

GitHub

Estadístiques de GitHub

Nom:
Llenguatge:
Estrelles:
Forquilles:
Llicència:
El repositori es va actualitzar per última vegada a

Per què triar PDFBox?

  • Maduresa: Estable des del 2002 amb actualitzacions regulars
  • Versatilitat: Capacitats de lectura i escriptura
  • Suport d'estàndards: Gestiona documents PDF 1.7 i PDF/A
  • Comunitat: Gran base d'usuaris i documentació extensa
  • Integració: Funciona amb tots els frameworks basats en Java

Instal·lació

PDFBox està disponible a Maven Central per a una integració fàcil:

Maven



    org.apache.pdfbox
    pdfbox
    3.0.0


Gradle


implementation 'org.apache.pdfbox:pdfbox:3.0.0'

Requisits del sistema: Java 8 o posterior

Exemples de codi

Exemples pràctics de les capacitats de PDFBox:

Apache PDFBox

Exemple 1: Extracció bàsica de text d'un document PDF en Java

Aquest exemple mostra com extreure text d'un document PDF mantenint el format i l'estructura. PDFBox ofereix capacitats avançades d'extracció de text que mantenen l'ordre de lectura i gestionen dissenys complexos.

La sortida inclou:

  • Contingut de text estructurat
  • Extracció pàgina per pàgina
  • Preservació bàsica del format

Exemple 2: Creació d'un document PDF des de zero en Java

PDFBox destaca tant en la lectura com en la creació de PDFs. Aquest exemple demostra com generar un nou document PDF amb text i format bàsic.

Exemple 3: Afegir capçaleres i peus de pàgina a pàgines PDF en Java

PDFBox ofereix suport complet per afegir capçaleres i peus de pàgina a pàgines PDF des de la teva aplicació Java. El següent exemple de codi mostra com aconseguir-ho utilitzant l'API de PDFBox per a Java.

Funcions avançades

PDFBox admet processament professional de PDFs:

  • Extracció d'imatges: Accés a imatges incrustades:

    Extracció d'imatges

    
        PDDocument document = PDDocument.load(new File("document.pdf"));
        for (PDPage page : document.getPages()) {
            PDResources resources = page.getResources();
            for (COSName name : resources.getXObjectNames()) {
                PDXObject xobject = resources.getXObject(name);
                if (xobject instanceof PDImageXObject) {
                    BufferedImage image = ((PDImageXObject) xobject).getImage();
                    // Processar imatge
                }
            }
        }
        
    
  • Divisió de documents: Divideix PDFs en múltiples arxius:

    Divisió de PDF

    
        Splitter splitter = new Splitter();
        List pages = splitter.split(document);
        for (int i = 0; i < pages.size(); i++) {
            pages.get(i).save("page-" + (i+1) + ".pdf");
        }
        
    
  • PDFs xifrats: Gestiona arxius protegits amb contrasenya:

    PDF xifrat

    
        String password = "secure123";
        FileInputStream fis = new FileInputStream("encrypted.pdf");
        PDDocument doc = PDDocument.load(fis, password);
        
    

PDFBox vs iText

Aquestes són les 5 diferències clau entre PDFBox i iText:

  • Llicència: PDFBox té llicència Apache (codi obert), mentre que iText té una llicència comercial per a la majoria d'usos
  • Enfocament de funcions: PDFBox ofereix capacitats equilibrades de lectura/escriptura, mentre que iText s'especialitza en la generació de PDFs
  • Rendiment: iText és generalment més ràpid en la creació de documents, mentre que PDFBox destaca en l'extracció de text
  • Comunitat: PDFBox té una adopció més àmplia de codi obert, mentre que iText ofereix suport professional
  • Casos d'ús: PDFBox és ideal per a anàlisi i manipulació bàsica, mentre que iText és millor per a generació de PDFs en gran volum

Conclusió

Apache PDFBox ofereix un processament complet de PDFs per a desenvolupadors Java. Ideal per a:

  • Extracció de contingut: Mineria de text i dades de PDFs
  • Automatització de documents: Generació d'informes i formularis
  • Gestió de documents: Divisió, fusió i transformació de PDFs
  • Processament de formularis: Lectura i ompliment de formularis interactius

Amb la seva llicència de codi obert i conjunt complet de funcions, PDFBox és la primera elecció per al processament de PDFs basat en Java.

Productes Similars

 Catalan