PaddleOCR: Industriell OCR för flerspråkig textextrahering

Upptäck och läs text från bilder och dokument med hög precision och hastighet.

Vad är PaddleOCR API?

PaddleOCR Python API är ett kraftfullt och lättanvänt verktyg för optisk teckenläsning (OCR), utformat för att hjälpa utvecklare att extrahera och analysera text från bilder med hög noggrannhet. Byggt på PaddlePaddles djupinlärningsramverk stöder PaddleOCR ett brett utbud av språk och inkluderar förtränade modeller för textdetektering, igenkänning och layoutanalys. Med sitt intuitiva Python-gränssnitt kan användare snabbt integrera OCR-funktioner i sina applikationer, oavsett om det gäller dokumentdigitalisering, textextrahering från foton eller automatiserad databehandling. PaddleOCR Python API är idealiskt för alla som vill implementera robusta OCR-lösningar med minimal konfiguration och maximal flexibilitet.

Nyckelfördelar med PaddleOCR inkluderar:

Flerspråkigt stöd: Förtränade modeller för 100+ språk (inklusive kinesiska, engelska, arabiska m.fl.).
Hög noggrannhet: PP-OCR-serien uppnår toppresultat på ICDAR-datamängder.
Helhetslösningar: Från textdetektering till igenkänning och layoutanalys.
Lättviktiga modeller: Optimerade för mobila och kantenheter (t.ex. PP-OCRv3).

Från skannade dokument till skyltar – PaddleOCR extraherar text med branschledande precision.

GitHub-statistik

Namn:
Språk:
Stjärnor:
Gafflar:
Licens:
Repository uppdaterades senast kl

Varför välja PaddleOCR?

Open source-excellens: 30 000+ GitHub-stjärnor och aktivt communitybidrag.
Mångsidig distribution: Stöd för Python, C++ och mobila plattformar (Android/iOS).
Layoutanalys: Identifierar textområden, tabeller och figurer i komplexa dokument.
Kontinuerliga uppdateringar: Regelbundna modellutgåvor (t.ex. PP-OCRv4).
Kommersiellt vänlig: Apache 2.0-licens för företagsanvändning.

Installation

PaddleOCR kräver Python 3.7+ och kan installeras via pip. GPU-stöd kräver CUDA/cuDNN.

Grundinstallation


pip install paddleocr paddlepaddle  #CPU-version

För GPU-acceleration:

GPU-stöd


pip install paddleocr paddlepaddle-gpu  #Kräver CUDA 10.2+

Obs: Förtränade modeller laddas ned automatiskt vid första användning eller manuellt via paddleocr --lang en.

Kodexempel

Utforska PaddleOCRs funktioner med dessa exempel. Alla förutsätter att du har installerat den engelska modellen.

PaddleOCR Python

Exempel 1: Grundläggande OCR

För att extrahera text från en bild med PaddleOCR och standardmodellerna behöver du bara initiera OCR-motorn med standardkonfigurationen, som inkluderar stöd för engelska och vinkelklassificering för att förbättra noggrannheten. PaddleOCR använder förtränade detekterings-, igenkännings- och klassificeringsmodeller för att identifiera och tolka text från inmatningsbilden. När bilden är bearbetad returnerar OCR-motorn den upptäckta texten tillsammans med dess position och en konfidenspoäng för varje resultat. Denna konfiguration ger ett snabbt och effektivt sätt att extrahera textinnehåll från bilder utan att kräva anpassad modellträning eller komplex konfiguration.

Bild-OCR


from paddleocr import PaddleOCR

ocr = PaddleOCR(use_angle_cls=True, lang='en')  # Initiera
result = ocr.ocr('image.jpg', cls=True)  # Bearbeta bild

# Skriv ut igenkänd text
for line in result:
    print(line[-1][0])  # Textinnehåll

Utdata inkluderar:

Textinnehåll och konfidenspoäng
Koordinater för begränsningsrutor

Exempel 2: Batchbearbetning

För att bearbeta flera bilder effektivt med PaddleOCR kan du dra nytta av batchbearbetningstekniker som minimerar redundanta initialiseringar och optimerar prestandan. Istället för att initiera OCR-motorn för varje bild rekommenderas det att skapa en enda instans av OCR-modellen och återanvända den över alla bildinmatningar. Denna metod minskar bearbetningstiden och resursförbrukningen avsevärt. Genom att mata in en lista med bildsökvägar till OCR-motorn i en loop eller med parallell bearbetning (vid behov) kan du snabbt och effektivt extrahera text från stora bildmängder, vilket är idealiskt för arbetsflöden som involverar dokumentbatchar, skannade arkiv eller bulkbildanalys.

Batch-OCR


image_paths = ['doc1.jpg', 'doc2.png']
results = ocr.ocr(image_paths, batch_size=4)  # Parallell bearbetning

Exempel 3: Layoutanalys

PaddleOCR kan inte bara användas för att känna igen text utan också för att identifiera specifika textområden och upptäcka strukturerade element som tabeller i en bild. Systemet lokaliserar först textområden via sin detekteringsmodell, som markerar varje textområde med begränsningsrutor, vilket gör det möjligt för användare att förstå var texten är placerad i bilden. För mer komplexa layouter, som formulär eller dokument som innehåller tabeller, stöder PaddleOCR layoutanalys och tabellstrukturigenkänning. Detta möjliggör upptäckt av rader, kolumner och cellgränser, vilket gör det möjligt att extrahera tabelldata i ett organiserat format. Sådana funktioner är särskilt användbara för att digitalisera skannade dokument, fakturor eller kalkylblad där både fri text och tabelldata finns.

Layoutdetektering


from paddleocr import PPStructure

structure_engine = PPStructure(table=False, ocr=False)
layout_result = structure_engine('document.pdf')

Avancerade funktioner

PaddleOCR stöder komplexa arbetsflöden:

Anpassad träning: Finjustera modeller på dina data:

Modellträning


    python tools/train.py -c configs/det/det_mv3_db.yml

Flerspråkig mixning: Bearbeta dokument med flera språk:
Flerspråkig OCR
```
    ocr = PaddleOCR(lang='chinese+english')
    
```

PDF-stöd: Direkt textextrahering från PDF:

PDF-bearbetning


    result = ocr.ocr('document.pdf', type='pdf')

Slutsats

PaddleOCR levererar produktionsredo OCR med oöverträffat flerspråkigt stöd och skalbarhet. Idealisk för:

Dokumentdigitalisering: Skannade PDF-filer, fakturor, kvitton
Flerspråkiga applikationer: Passerkänning, flerspråkiga böcker
Kantdistribution: Mobilappar med OCR på enheten

Med stöd från PaddlePaddles djupinlärningsekosystem fortsätter PaddleOCR att sätta riktmärken inom OCR-noggrannhet och effektivitet.