PaddleOCR: Industri-stærk OCR til flersproget tekstudtrækning

Detekter og genkend tekst fra billeder og dokumenter med høj præcision og hastighed.

Hvad er PaddleOCR API?

PaddleOCR Python API er et kraftfuldt og brugervenligt værktøj til optisk tegngenkendelse (OCR), designet til at hjælpe udviklere med at udtrække og analysere tekst fra billeder med høj nøjagtighed. Bygget på PaddlePaddle's dybdelæringsramme understøtter PaddleOCR en bred vifte af sprog og indeholder forhåndstrænede modeller til tekstdetektion, genkendelse og layoutanalyse. Med sit intuitive Python-interface kan brugerne hurtigt integrere OCR-funktionalitet i deres applikationer, uanset om det er til digitalisering af dokumenter, tekstudtrækning fra fotos eller automatiseret databehandling. PaddleOCR Python API er ideel til alle, der ønsker at implementere robuste OCR-løsninger med minimal opsætning og maksimal fleksibilitet.

Nøglefordele ved PaddleOCR:

Flersproget understøttelse: Forhåndstrænede modeller til 100+ sprog (inklusive kinesisk, engelsk, arabisk osv.)
Høj nøjagtighed: PP-OCR-serien opnår topresultater på ICDAR-datasets
Helhedsløsninger: Fra tekstdetektion til genkendelse og layoutanalyse
Letvægtsmodeller: Optimerede til mobile og edge-enheder (f.eks. PP-OCRv3)

Fra scannede dokumenter til vejskilte udtrækker PaddleOCR tekst med brancheførende præcision.

GitHub-statistik

Navn:
Sprog:
Stjerner:
Forgafler:
Licens:
Repository blev sidst opdateret kl

Hvorfor vælge PaddleOCR?

Open-source excellence: Over 30.000 GitHub-stjerner og aktivt communitybidrag
Alsidig implementering: Understøtter Python, C++ og mobile platforme (Android/iOS)
Layoutanalyse: Identificerer tekstområder, tabeller og figurer i komplekse dokumenter
Løbende opdateringer: Regelmæssige modeludgivelser (f.eks. PP-OCRv4)
Erhvervsvenlig: Apache 2.0-licens til kommerciel brug

Installation

PaddleOCR kræver Python 3.7+ og kan installeres via pip. GPU-understøttelse kræver CUDA/cuDNN.

Grundlæggende installation


pip install paddleocr paddlepaddle  #CPU-version

Til GPU-acceleration:

GPU-understøttelse


pip install paddleocr paddlepaddle-gpu  #Kræver CUDA 10.2+

Bemærk: Forhåndstrænede modeller downloades automatisk ved første brug eller manuelt via paddleocr --lang en.

Kodeeksempler

Udforsk PaddleOCRs funktioner med disse eksempler. Alle eksempler forudsætter, at du har installeret den engelske model.

PaddleOCR Python

Eksempel 1: Grundlæggende OCR

For at udtrække tekst fra et billede ved hjælp af PaddleOCR med standardmodellerne skal du blot initialisere OCR-motoren med standardkonfigurationen, som inkluderer understøttelse af engelsk og vinkelklassifikation for forbedret nøjagtighed. PaddleOCR bruger forhåndstrænede modeller til detektion, genkendelse og klassifikation til at identificere og fortolke tekst i inputbilledet. Når billedet er behandlet, returnerer OCR-motoren den detekterede tekst sammen med dens position og en tillidsværdi for hvert resultat. Denne opsætning giver en hurtig og effektiv måde at udtrække tekstindhold fra billeder uden behov for brugerdefineret modeltræning eller komplekse konfigurationer.

Billed-OCR


from paddleocr import PaddleOCR

ocr = PaddleOCR(use_angle_cls=True, lang='en')  # Initialisering
result = ocr.ocr('image.jpg', cls=True)  # Billedbehandling

# Udskriv genkendt tekst
for line in result:
    print(line[-1][0])  # Tekstindhold

Output inkluderer:

Tekstindhold og tillidsscore
Koordinater for afgrænsningsramme

Eksempel 2: Batchbehandling

For at behandle flere billeder effektivt med PaddleOCR kan du drage fordel af batchbehandlingsteknikker, der minimerer redundante initialiseringer og optimerer ydeevnen. I stedet for at initialisere OCR-motoren for hvert billede anbefales det at oprette en enkelt instans af OCR-modellen og genbruge den til alle inputbilleder. Denne tilgang reducerer behandlingstiden og ressourceforbruget markant. Ved at sende en liste med billedstier til OCR-motoren i en løkke eller ved brug af parallel behandling (hvis passende), kan du hurtigt og effektivt udtrække tekst fra store billedsæt, hvilket gør det ideelt til arbejdsgange, der involverer dokumentbatches, scannede arkiver eller bulkbilledanalyse.

Batch-OCR


image_paths = ['doc1.jpg', 'doc2.png']
results = ocr.ocr(image_paths, batch_size=4)  # Parallel behandling

Eksempel 3: Layoutanalyse

PaddleOCR kan ikke kun bruges til at genkende tekst, men også til at identificere specifikke tekstområder og detektere strukturelle elementer som tabeller i et billede. Systemet lokaliserer først tekstområder via sin detektionsmodel, der omkranser hvert tekstområde med en afgrænsningsramme, hvilket giver brugerne mulighed for at forstå, hvor tekst er placeret i billedet. Til mere komplekse layout som formularer eller dokumenter, der indeholder tabeller, understøtter PaddleOCR layoutanalyse og tabelstrukturgenkendelse. Dette muliggør detektion af rækker, kolonner og cellegrænser, hvilket gør det muligt at udtrække tabeldata i et organiseret format. Sådanne funktioner er særligt nyttige til digitalisering af scannede dokumenter som fakturaer eller regneark, hvor både fritekst og tabeldata forekommer.

Layoutdetektion


from paddleocr import PPStructure

structure_engine = PPStructure(table=False, ocr=False)
layout_result = structure_engine('document.pdf')

Avancerede funktioner

PaddleOCR understøtter komplekse arbejdsgange:

Tilpasset træning: Finjuster modeller på dine egne data:

Modeltræning


    python tools/train.py -c configs/det/det_mv3_db.yml

Sprogblanding: Behandling af flersprogede dokumenter:
Flersproget OCR
```
    ocr = PaddleOCR(lang='chinese+english')
    
```
PDF-understøttelse: Direkte tekstudtrækning fra PDF-filer:
PDF-behandling
```
    result = ocr.ocr('document.pdf', type='pdf')
    
```

Konklusion

PaddleOCR leverer produktionsklare OCR-løsninger med uovertruffen flersproget understøttelse og skalerbarhed. Ideel til:

Dokumentdigitalisering: Scannede PDF'er, fakturaer, kvitteringer
Flersprogede applikationer: Pasgenkendelse, flersprogede bøger
Edge-implementering: Mobilapps med on-device OCR

Understøttet af PaddlePaddles dybdelæringsekosystem fortsætter PaddleOCR med at sætte standarden for OCR-nøjagtighed og -effektivitet.