1. Produkter
  2.   Redaktør
  3.   Java
  4.   Apache PDFBox
 
  

Apache PDFBox: Komplet PDF-værktøjssæt til Java

Uddrag tekst, manipuler dokumenter, udfyld formularer og mere - alt i ren Java

Hvad er Apache PDFBox?

Apache PDFBox er et kraftfuldt open source Java-bibliotek designet til problemfri PDF-behandling i Java, der giver udviklere mulighed for at oprette, redigere og udtrække indhold fra PDF-dokumenter programmatisk. Som et af de mest populære Java PDF-biblioteker udmærker PDFBox sig ved opgaver som udtrækning af tekst fra PDF'er, sammenfletning af flere PDF-filer og tilføjelse af digitale signaturer - alt sammen med et letvægts-API og ingen licensomkostninger. Uanset om du har brug for PDF-parsering i Java, PDF-generering eller PDF/A-overholdelse, understøtter dette bibliotek avancerede funktioner som OCR-integration, formularudfyldning og HTML-til-PDF-konvertering. Med Maven-klar afhængighed (f.eks. pdfbox-maven) og omfattende dokumentation forenkler PDFBox komplekse arbejdsgange - hvilket gør den ideel til enterprise-applikationer, dokumentautomatisering og dataudtrækning. Sammenlignet med alternativer som iText skiller Apache PDFBox sig ud med sin open source-fleksibilitet, aktive community og tværgående platformkompatibilitet. Udforsk vores PDFBox-vejledning for at se Java-kodeeksempler og låse op for det fulde potentiale af PDF-manipulation i Java.

Nøglefordele ved PDFBox inkluderer:

  • Komplet løsning: Både udtræknings- og oprettelsesfunktioner
  • Ren Java: Ingen native afhængigheder
  • Aktiv udvikling: Støttet af Apache Software Foundation
  • Omfattende funktioner: Tekstudtrækning, opdeling, sammenfletning, signering
  • Formularunderstøttelse: Læs og udfyld PDF-formularer

Ideel til dokumentstyringssystemer, indholdsudtrækning og PDF-automatisering.

GitHub

GitHub-statistik

Navn:
Sprog:
Stjerner:
Forgafler:
Licens:
Repository blev sidst opdateret kl

Hvorfor vælge PDFBox?

  • Modenhed: Stabil siden 2002 med regelmæssige opdateringer
  • Alsidighed: Både læse- og skrivefunktioner
  • Standardunderstøttelse: Håndterer PDF 1.7 og PDF/A-dokumenter
  • Fællesskab: Stor brugerbase og omfattende dokumentation
  • Integration: Virker med alle Java-baserede frameworks

Installation

PDFBox er tilgængelig via Maven Central til nem integration:

Maven



    org.apache.pdfbox
    pdfbox
    3.0.0


Gradle


implementation 'org.apache.pdfbox:pdfbox:3.0.0'

Systemkrav: Java 8 eller nyere

Kodeeksempler

Praktiske eksempler på PDFBox's funktioner:

Apache PDFBox

Eksempel 1: Grundlæggende tekstudtrækning fra PDF-dokument i Java

Dette eksempel viser, hvordan man udtrækker tekst fra et PDF-dokument samtidig med at formatering og struktur bevares. PDFBox leverer avancerede tekstudtrækningsfunktioner der bevarer læserækkefølge og håndterer komplekse layout.

Output inkluderer:

  • Struktureret tekstindhold
  • Side-for-side udtrækning
  • Basisformatering bevares

Eksempel 2: Oprettelse af PDF-dokument fra bunden i Java

PDFBox udmærker sig både ved læsning og oprettelse af PDF'er. Dette eksempel demonstrerer generering af et nyt PDF-dokument med tekst og grundlæggende formatering.

Eksempel 3: Tilføjelse af sidehoveder og sidefødder til PDF-sider i Java

PDFBox leverer omfattende understøttelse til at tilføje sidehoveder og sidefødder til PDF-sider fra din Java-applikation. Følgende kodeeksempel viser, hvordan dette opnås ved hjælp af PDFBox API til Java.

Avancerede funktioner

PDFBox understøtter professionel PDF-behandling:

  • Billedudtrækning: Adgang til indlejrede billeder:

    Billedudtrækning

    
        PDDocument document = PDDocument.load(new File("document.pdf"));
        for (PDPage page : document.getPages()) {
            PDResources resources = page.getResources();
            for (COSName name : resources.getXObjectNames()) {
                PDXObject xobject = resources.getXObject(name);
                if (xobject instanceof PDImageXObject) {
                    BufferedImage image = ((PDImageXObject) xobject).getImage();
                    // Behandling af billede
                }
            }
        }
        
    
  • Dokumentopdeling: Opdel PDF'er i flere filer:

    Opdeling af PDF

    
        Splitter splitter = new Splitter();
        List pages = splitter.split(document);
        for (int i = 0; i < pages.size(); i++) {
            pages.get(i).save("page-" + (i+1) + ".pdf");
        }
        
    
  • Krypterede PDF'er: Håndtering af adgangskodebeskyttede filer:

    Krypteret PDF

    
        String password = "secure123";
        FileInputStream fis = new FileInputStream("encrypted.pdf");
        PDDocument doc = PDDocument.load(fis, password);
        
    

PDFBox vs iText

Her er de 5 vigtigste forskelle mellem PDFBox og iText:

  • Licens: PDFBox er Apache-licenseret (open source), mens iText har en kommerciel licens til de fleste brugsscenarier
  • Funktionsfokus: PDFBox leverer balancerede læse-/skrivefunktioner, mens iText specialiserer sig i PDF-generering
  • Ydeevne: iText er generelt hurtigere ved dokumentoprettelse, mens PDFBox udmærker sig ved tekstudtrækning
  • Fællesskab: PDFBox har bredere open source-adoption, mens iText tilbyder professionel support
  • Brugsscenarier: PDFBox er ideel til analyse og grundlæggende manipulation, mens iText er bedre til højvolumens PDF-generering

Konklusion

Apache PDFBox leverer omfattende PDF-behandling til Java-udviklere. Ideel til:

  • Indholdsudtrækning: Uddrag af tekst og data fra PDF'er
  • Dokumentautomatisering: Generering af rapporter og formularer
  • Dokumentstyring: Opdeling, sammenfletning og transformation af PDF'er
  • Formularbehandling: Læsning og udfyldning af interaktive formularer

Med sin open source-licens og omfattende funktionssæt er PDFBox det foretrukne valg til Java-baseret PDF-behandling.

Lignende Produkter

 Dansk