1. Tuotteet
  2.   Toimittaja
  3.   Java
  4.   Apache PDFBox
 
  

Apache PDFBox: Täydellinen PDF-työkalupakki Java:lle

Poimi tekstiä, käsittele dokumentteja, täytä lomakkeita ja paljon muuta – kaikki puhtaalla Java:lla

Mikä on Apache PDFBox?

Apache PDFBox on tehokas avoimen lähdekoodin Java-kirjasto, joka on suunniteltu PDF-tiedostojen helppoon käsittelyyn Java:ssa. Sen avulla kehittäjät voivat luoda, muokata ja poimia sisältöä PDF-dokumenteista ohjelmallisesti. Erääna suosituimmista Java PDF-kirjastoista PDFBox erottuu tehtävissä kuten tekstin poimiminen PDF:istä, useiden PDF-tiedostojen yhdistäminen ja digitaalisten allekirjoitusten lisääminen – kaikki kevyellä API:lla ja ilman lisenssikustannuksia. Tarvitsetpa sitten PDF-jäsennystä Java:ssa, PDF-generointia tai PDF/A-yhteensopivuutta, tämä kirjasto tukee edistyksellisiä ominaisuuksia kuten OCR-integraatio, lomakkeiden täyttö ja HTML-PDF-muunnos. Maven-valmiilla riippuvuuksilla (esim. pdfbox-maven) ja laajalla dokumentaatiolla PDFBox yksinkertaistaa monimutkaisia työnkulkuja – tehden siitä ihanteellisen yrityssovelluksille, asiakirjojen automatisointiin ja datan poimintaan. Verrattuna vaihtoehtoihin kuten iText, Apache PDFBox erottuu avoimen lähdekoodin joustavuudellaan, aktiivisella yhteisöllään ja alustariippumattomuudellaan. Tutustu PDFBox-opasohjelmaamme löytääksesi Java-koodiesimerkkejä ja avataksesi PDF-käsittelyn täyden potentiaalin Java:ssa.

PDFBox:n keskeiset edut:

  • Täydellinen ratkaisu: Sekä poiminta- että luontitoiminnot
  • Puhdas Java: Ei natiiviriipuvuuksia
  • Aktiivinen kehitys: Apache Software Foundationin tukema
  • Laaja toiminnallisuus: Tekstin poiminta, jakaminen, yhdistäminen, allekirjoittaminen
  • Lomaketuki: PDF-lomakkeiden lukeminen ja täyttö

Ihanteellinen asiakirjojen hallintajärjestelmiin, sisällön poimintaan ja PDF-automatisointiin.

GitHub

GitHub-tilastot

Nimi:
Kieli:
Tähdet:
Haarukat:
Lisenssi:
Arkisto päivitettiin viimeksi klo

Miksi valita PDFBox?

  • Kypsyys: Vakaa vuodesta 2002 lähtien, säännöllisillä päivityksillä
  • Monipuolisuus: Sekä lukemis- että kirjoitustoiminnot
  • Standardituki: Käsittelee PDF 1.7 ja PDF/A -dokumentteja
  • Yhteisö: Laaja käyttäjäkunta ja kattava dokumentaatio
  • Integraatio: Toimii kaikkien Java-pohjaisten kehysten kanssa

Asennus

PDFBox on saatavilla Maven Centralin kautta helppoa integrointia varten:

Maven



    org.apache.pdfbox
    pdfbox
    3.0.0


Gradle


implementation 'org.apache.pdfbox:pdfbox:3.0.0'

Järjestelmävaatimukset: Java 8 tai uudempi

Koodiesimerkkejä

Käytännön esimerkkejä PDFBox:n ominaisuuksista:

Apache PDFBox

Esimerkki 1: Perustekstin poiminta PDF-dokumentista Java:ssa

Tämä esimerkki näyttää kuinka poimia tekstiä PDF-dokumentista säilyttäen muotoilun ja rakenteen. PDFBox tarjoaa edistyneitä tekstinpoimintaominaisuuksia, jotka säilyttävät lukujärjestyksen ja käsittelevät monimutkaisia asetteluja.

Tuloste sisältää:

  • Rakenteellisen tekstisisällön
  • Sivukohtaisen poiminnan
  • Perusmuotoilun säilyttämisen

Esimerkki 2: PDF-dokumentin luominen tyhjästä Java:ssa

PDFBox erottuu sekä PDF-tiedostojen lukemisessa että luomisessa. Tämä esimerkki demonstroi uuden PDF-dokumentin luomista tekstillä ja perusmuotoilulla.

Esimerkki 3: Ylä- ja alatunnisteiden lisääminen PDF-sivuille Java:ssa

PDFBox tarjoaa kattavan tuen ylä- ja alatunnisteiden lisäämiseen PDF-sivuille Java-sovelluksestasi. Seuraava koodiesimerkki näyttää kuinka tämä saavutetaan PDFBox API:lla Java:lle.

Edistyneet ominaisuudet

PDFBox tukee ammattimaista PDF-käsittelyä:

  • Kuvien poiminta: Käyttö upotettuihin kuviiin:

    Kuvien poiminta

    
        PDDocument document = PDDocument.load(new File("document.pdf"));
        for (PDPage page : document.getPages()) {
            PDResources resources = page.getResources();
            for (COSName name : resources.getXObjectNames()) {
                PDXObject xobject = resources.getXObject(name);
                if (xobject instanceof PDImageXObject) {
                    BufferedImage image = ((PDImageXObject) xobject).getImage();
                    // Kuvan käsittely
                }
            }
        }
        
    
  • Dokumentin jakaminen: PDF-tiedostojen pilkkominen useiksi tiedostoiksi:

    PDF:n jakaminen

    
        Splitter splitter = new Splitter();
        List pages = splitter.split(document);
        for (int i = 0; i < pages.size(); i++) {
            pages.get(i).save("page-" + (i+1) + ".pdf");
        }
        
    
  • Salatut PDF:t: Salasanasuojattujen tiedostojen käsittely:

    Salattu PDF

    
        String password = "secure123";
        FileInputStream fis = new FileInputStream("encrypted.pdf");
        PDDocument doc = PDDocument.load(fis, password);
        
    

PDFBox vs iText

Tässä 5 keskeistä eroa PDFBox:n ja iTextin välillä:

  • Lisenssi: PDFBox on Apache-lisensoitu (avoimen lähdekoodin), kun iTextillä on kaupallinen lisenssi useimpiin käyttötarkoituksiin
  • Ominaisuuksien painopiste: PDFBox tarjoaa tasapainoiset lukemis- ja kirjoitustoiminnot, kun iText erikoistuu PDF-generointiin
  • Suorituskyky: iText on yleensä nopeampi dokumenttien luomisessa, kun PDFBox erottuu tekstinpoiminnassa
  • Yhteisö: PDFBox:lla on laajempi avoimen lähdekoodin käyttäjäkunta, kun iText tarjoaa ammattitukea
  • Käyttötapaukset: PDFBox on ihanteellinen analyysiin ja peruskäsittelyyn, kun iText on parempi suurten PDF-määrien generoinnissa

Johtopäätös

Apache PDFBox tarjoaa kattavan PDF-käsittelyn Java-kehittäjille. Ihanteellinen:

  • Sisällön poimintaan: Tekstin ja tietojen poimiminen PDF:istä
  • Asiakirjojen automatisointiin: Raporttien ja lomakkeiden generointi
  • Asiakirjojen hallintaan: PDF-tiedostojen jakaminen, yhdistäminen ja muuntaminen
  • Lomakekäsittelyyn: Interaktiivisten lomakkeiden lukeminen ja täyttö

Avoimen lähdekoodin lisenssillään ja kattavalla ominaisuusvalikoimallaan PDFBox on ensisijainen valinta Java-pohjaiselle PDF-käsittelylle.

Samankaltaisia Tuotteita

 Finnish