PaddleOCR: Teollisuusluokan OCR monikieliseen tekstin poimintaan

Tunnista ja lue tekstiä kuvista ja asiakirjoista korkealla tarkkuudella ja nopeudella.

Mikä on PaddleOCR API?

PaddleOCR Python API on tehokas ja helppokäyttöinen työkalu optisen merkkien tunnistuksen (OCR) tehtäviin, suunniteltu auttamaan kehittäjiä poimimaan ja analysoimaan tekstiä kuvista korkealla tarkkuudella. PaddlePaddle -syväoppimiskehykseen rakennettu PaddleOCR tukee laajaa kirjoa kieliä ja sisältää esikoulutettuja malleja tekstin tunnistukseen, lukemiseen ja asettelun analysointiin. Sen intuitiivisella Python-käyttöliittymällä käyttäjät voivat nopeasti integroida OCR-ominaisuuksia sovelluksiinsa, olipa kyse sitten asiakirjojen digitalisoinnista, tekstin poimimisesta kuvista tai automaattisesta tiedonkäsittelystä. PaddleOCR Python API on ihanteellinen kaikille, jotka haluavat toteuttaa robusteja OCR-ratkaisuja minimaalisella asetuksilla ja maksimaalisella joustavuudella.

PaddleOCR:n keskeiset edut:

Monikielinen tuki: Esikoulutettuja malleja 100+ kielelle (ml. kiina, englanti, arabia jne.)
Korkea tarkkuus: PP-OCR-mallisarja saavuttaa huipputuloksia ICDAR-tietokannoissa
Kattavat ratkaisut: Tekstin tunnistuksesta lukemiseen ja asettelun analyysiin
Kevyet mallit: Optimoitu mobiili- ja reunalaitteille (esim. PP-OCRv3)

Skannatuista asiakirjoista katukyltteihin - PaddleOCR poimii tekstin teollisuuden johtavalla tarkkuudella.

GitHub-tilastot

Nimi:
Kieli:
Tähdet:
Haarukat:
Lisenssi:
Arkisto päivitettiin viimeksi klo

Miksi valita PaddleOCR?

Avoimen lähdekoodin huippulaatu: Yli 30 000 GitHub-tähteä ja aktiivista yhteisön osallistumista
Monipuolinen käyttöönotto: Tukee Pythonia, C++:aa ja mobiilialustoja (Android/iOS)
Asettelun analyysi: Tunnistaa tekstialueita, taulukoita ja kuvia monimutkaisissa asiakirjoissa
Jatkuvat päivitykset: Säännölliset mallipäivitykset (esim. PP-OCRv4)
Yrityskäyttöön sopiva: Apache 2.0 -lisenssi kaupalliseen käyttöön

Asennus

PaddleOCR vaatii Python 3.7+ ja voidaan asentaa pip:n kautta. GPU-tuki vaatii CUDA/cuDNN:n.

Perusasennus


pip install paddleocr paddlepaddle  #CPU-versio

GPU-kiihdytykseen:

GPU-tuki


pip install paddleocr paddlepaddle-gpu  #Vaatii CUDA 10.2+

Huomio: Esikoulutetut mallit ladataan automaattisesti ensimmäisellä käyttökerralla tai manuaalisesti komennolla paddleocr --lang en.

Koodiesimerkkejä

Tutustu PaddleOCR:n ominaisuuksiin näiden esimerkkien avulla. Kaikki esimerkit olettavat, että olet asentanut englanninkielisen mallin.

PaddleOCR Python

Esimerkki 1: Perus-OCR

Poimiaksesi tekstin kuvasta käyttäen PaddleOCR:ia ja sen oletusmalleja, sinun tarvitsee vain alustaa OCR-moottori standardikokoonpanolla, joka sisältää englanninkielisen tuen ja kulmaklassifioinnin tarkkuuden parantamiseksi. PaddleOCR käyttää esikoulutettuja malleja tekstin tunnistamiseen, lukemiseen ja luokitteluun tunnistaakseen ja tulkitsemaan tekstin syötekuvasta. Kun kuva on käsitelty, OCR-moottori palauttaa havaittun tekstin sen sijainnin ja luottamusarvon kera jokaiselle tulokselle. Tämä asetus tarjoaa nopean ja tehokkaan tavan poimia tekstisisältöä kuvista ilman räätälöityä mallien koulutusta tai monimutkaisia kokoonpanoja.

Kuvan OCR


from paddleocr import PaddleOCR

ocr = PaddleOCR(use_angle_cls=True, lang='en')  #Alustus
result = ocr.ocr('image.jpg', cls=True)  #Kuvan käsittely

# Tulosta tunnistettu teksti
for line in result:
    print(line[-1][0])  #Tekstisisältö

Tuloste sisältää:

Tekstisisällön ja luottamusarvot
Rajauslaatikon koordinaatit

Esimerkki 2: Eräkäsittely

Käsitellessäsi useita kuvia tehokkaasti PaddleOCR:lla, voit hyödyntää eräkäsittelytekniikoita, jotka minimoivat tarpeettomia alustuksia ja optimoivat suorituskykyä. Sen sijaan että alustaisit OCR-moottorin jokaiselle kuvalle, on suositeltavaa luoda yksi OCR-mallin instanssi ja käyttää sitä uudelleen kaikille syötekuville. Tämä lähestymistapa vähentää merkittävästi käsittelyaikaa ja resurssien kulutusta. Lähettämällä luettelon kuvapolusta OCR-moottorille silmukassa tai käyttämällä rinnakkaiskäsittelyä (kun sopii), voit nopeasti ja tehokkaasti poimia tekstiä suurista kuvakokoelmista, mikä tekee siitä ihanteellisen työnkulkuja varten, joihin liittyy eriä asiakirjoja, skannattuja arkistoja tai massakuva-analyysiä.

Erä-OCR


image_paths = ['doc1.jpg', 'doc2.png']
results = ocr.ocr(image_paths, batch_size=4)  #Rinnakkaiskäsittely

Esimerkki 3: Asettelun analyysi

PaddleOCR:ia voidaan käyttää paitsi tekstin tunnistamiseen, myös tiettyjen tekstialueiden tunnistamiseen ja rakenteellisten elementtien, kuten taulukoiden, havaitsemiseen kuvassa. Järjestelmä paikantaa ensin tekstialueet tunnistusmallinsa avulla, joka hahmottaa jokaisen tekstialueen rajauslaatikolla, jolloin käyttäjät voivat ymmärtää, missä teksti kuvassa sijaitsee. Monimutkaisempia asetteluja varten, kuten lomakkeita tai taulukoita sisältäviä asiakirjoja, PaddleOCR tukee asettelun analyysiä ja taulukkorakenteen tunnistusta. Tämä mahdollistaa rivien, sarakkeiden ja solurajojen havaitsemisen, mikä tekee taulukkotietojen poimimisen organisoidussa muodossa mahdolliseksi. Tällaiset ominaisuudet ovat erityisen hyödyllisiä skannattujen asiakirjojen, kuten laskujen tai laskentataulukoiden, digitalisoinnissa, joissa sekä vapaamuotoinen teksti että taulukkotiedot esiintyvät yhdessä.

Asettelun tunnistus


from paddleocr import PPStructure

structure_engine = PPStructure(table=False, ocr=False)
layout_result = structure_engine('document.pdf')

Edistyneet ominaisuudet

PaddleOCR tukee monimutkaisia työnkulkuja:

Räätälöity koulutus: Hienosäädä malleja omilla tiedoillasi:
Mallin koulutus
```
    python tools/train.py -c configs/det/det_mv3_db.yml
    
```
Kielten yhdistäminen: Käsittele monikielisiä asiakirjoja:
Monikielinen OCR
```
    ocr = PaddleOCR(lang='chinese+english')
    
```

PDF-tuki: Suora tekstinpoiminta PDF-tiedostoista:

PDF-käsittely


    result = ocr.ocr('document.pdf', type='pdf')

Johtopäätös

PaddleOCR tarjoaa tuotantovalmiita OCR-ratkaisuja vertaansa vailla olevalla monikielisellä tuella ja skaalautuvuudella. Ihanteellinen:

Asiakirjojen digitalisointiin: Skannatut PDF:t, laskut, kuitit
Monikielisiin sovelluksiin: Passintunnistus, monikieliset kirjat
Reunalla käyttöönottoon: Mobiilisovellukset laitekohtaisella OCR:lla

PaddlePaddle:n syväoppimisympäristön tukemana PaddleOCR jatkaa standardien asettamista OCR-tarkkuudessa ja -tehokkuudessa.