PaddleOCR: Industrietaugliche OCR für mehrsprachige Textextraktion

Erkennen und extrahieren Sie Text aus Bildern und Dokumenten mit hoher Präzision und Geschwindigkeit.

Was ist die PaddleOCR API?

Die PaddleOCR Python API ist ein leistungsstarkes und benutzerfreundliches Toolkit für optische Zeichenerkennung (OCR), entwickelt um Entwicklern bei der Textextraktion und -analyse aus Bildern mit hoher Genauigkeit zu unterstützen. Basierend auf dem PaddlePaddle Deep-Learning-Framework unterstützt PaddleOCR eine Vielzahl von Sprachen und bietet vortrainierte Modelle für Texterkennung, -detektion und Layoutanalyse. Mit seiner intuitiven Python-Schnittstelle können Nutzer OCR-Funktionen schnell in ihre Anwendungen integrieren, sei es zur Digitalisierung von Dokumenten, Textextraktion aus Fotos oder automatisierter Datenverarbeitung. Die PaddleOCR Python API ist ideal für jeden, der robuste OCR-Lösungen mit minimalem Aufwand und maximaler Flexibilität implementieren möchte.

Hauptvorteile von PaddleOCR:

Mehrsprachige Unterstützung: Vortrainierte Modelle für 100+ Sprachen (inkl. Chinesisch, Englisch, Arabisch etc.)
Hohe Genauigkeit: PP-OCR-Modelle erzielen Spitzenwerte auf ICDAR-Datensätzen
End-to-End-Lösungen: Von Texterkennung bis Layoutanalyse
Leichtgewichtige Modelle: Optimiert für mobile und Edge-Geräte (z.B. PP-OCRv3)

Von gescannten Dokumenten bis hin zu Straßenschildern – PaddleOCR extrahiert Text mit branchenführender Präzision.

GitHub-Statistiken

Name:
Sprache:
Sterne:
Gabeln:
Lizenz:
Das Repository wurde zuletzt aktualisiert unter

Warum PaddleOCR wählen?

Open-Source-Exzellenz: Über 30.000 GitHub-Sterne und aktive Community-Beiträge
Vielseitige Bereitstellung: Unterstützt Python, C++ und Mobile Plattformen (Android/iOS)
Layoutanalyse: Identifiziert Textbereiche, Tabellen und Abbildungen in komplexen Dokumenten
Regelmäßige Updates: Aktuelle Modellversionen (z.B. PP-OCRv4)
Unternehmensfreundlich: Apache-2.0-Lizenz für kommerzielle Nutzung

Installation

PaddleOCR benötigt Python 3.7+ und kann via pip installiert werden. GPU-Unterstützung erfordert CUDA/cuDNN.

Standardinstallation


pip install paddleocr paddlepaddle  #CPU-Version

Für GPU-Beschleunigung:

GPU-Unterstützung


pip install paddleocr paddlepaddle-gpu  #Benötigt CUDA 10.2+

Hinweis: Vortrainierte Modelle werden beim ersten Gebrauch automatisch heruntergeladen oder manuell via paddleocr --lang en.

Codebeispiele

Entdecken Sie PaddleOCRs Funktionalitäten mit diesen Beispielen. Alle Beispiele setzen das englische Modell voraus.

PaddleOCR Python

Beispiel 1: Grundlegende OCR

Um Text aus einem Bild mit PaddleOCR und Standardmodellen zu extrahieren, initialisieren Sie einfach die OCR-Engine mit der Standardkonfiguration, die Englisch-Unterstützung und Winkelklassifizierung für verbesserte Genauigkeit beinhaltet. PaddleOCR nutzt vortrainierte Modelle für Erkennung, Extraktion und Klassifizierung, um Text im Eingabebild zu identifizieren und zu interpretieren. Nach der Bildverarbeitung gibt die OCR-Engine den erkannten Text zusammen mit seiner Position und einem Konfidenzwert für jedes Ergebnis zurück. Diese Einrichtung bietet eine schnelle und effiziente Möglichkeit, Textinhalte aus Bildern zu extrahieren, ohne dass ein individuelles Modelltraining oder komplexe Konfigurationen erforderlich sind.

Bild-OCR


from paddleocr import PaddleOCR

ocr = PaddleOCR(use_angle_cls=True, lang='en')  # Initialisierung
result = ocr.ocr('image.jpg', cls=True)  # Bildverarbeitung

# Erkannten Text ausgeben
for line in result:
    print(line[-1][0])  # Textinhalt

Ausgabe beinhaltet:

Textinhalt und Konfidenzwerte
Begrenzungsrahmen-Koordinaten

Beispiel 2: Stapelverarbeitung

Für die effiziente Verarbeitung mehrerer Bilder mit PaddleOCR können Sie Stapelverarbeitungstechniken nutzen, die redundante Initialisierungen minimieren und die Leistung optimieren. Anstatt die OCR-Engine für jedes Bild zu initialisieren, wird empfohlen, eine einzige Instanz des OCR-Modells zu erstellen und für alle Eingabebilder wiederzuverwenden. Dieser Ansatz reduziert die Verarbeitungszeit und den Ressourcenverbrauch erheblich. Durch Übergabe einer Liste von Bildpfaden an die OCR-Engine in einer Schleife oder mittels Parallelverarbeitung (wenn angebracht) können Sie schnell und effektiv Text aus großen Bildersammlungen extrahieren, was es ideal für Workflows mit Dokumentenstapeln, gescannten Archiven oder Massenbildanalysen macht.

Stapel-OCR


image_paths = ['doc1.jpg', 'doc2.png']
results = ocr.ocr(image_paths, batch_size=4)  # Parallelverarbeitung

Beispiel 3: Layoutanalyse

PaddleOCR kann nicht nur zur Texterkennung, sondern auch zur Identifizierung spezifischer Textbereiche und zur Erkennung strukturierter Elemente wie Tabellen in einem Bild verwendet werden. Das System lokalisiert zunächst Textbereiche über sein Erkennungsmodell, das jeden Textbereich mit einem Begrenzungsrahmen umgibt, sodass Benutzer verstehen können, wo sich Text im Bild befindet. Für komplexere Layouts wie Formulare oder Dokumente mit Tabellen unterstützt PaddleOCR Layoutanalyse und Tabellenstrukturerkennung. Dies ermöglicht die Erkennung von Zeilen, Spalten und Zellgrenzen, was die Extraktion von Tabellendaten in einem organisierten Format möglich macht. Solche Funktionen sind besonders nützlich für die Digitalisierung gescannter Dokumente wie Rechnungen oder Tabellenkalkulationen, wo Freitext und Tabellendaten zusammen vorkommen.

Layouterkennung


from paddleocr import PPStructure

structure_engine = PPStructure(table=False, ocr=False)
layout_result = structure_engine('document.pdf')

Erweiterte Funktionen

PaddleOCR unterstützt komplexe Workflows:

Angepasstes Training: Feinabstimmung der Modelle mit Ihren Daten:
Modelltraining
```
    python tools/train.py -c configs/det/det_mv3_db.yml
    
```
Mehrsprachen-Mixing: Verarbeitung mehrsprachiger Dokumente:
Mehrsprachige OCR
```
    ocr = PaddleOCR(lang='chinese+english')
    
```
PDF-Unterstützung: Direkte Textextraktion aus PDF-Dateien:
PDF-Verarbeitung
```
    result = ocr.ocr('document.pdf', type='pdf')
    
```

Fazit

PaddleOCR bietet produktionsreife OCR-Lösungen mit beispielloser mehrsprachiger Unterstützung und Skalierbarkeit. Ideal für:

Dokumentendigitalisierung: Gescannte PDFs, Rechnungen, Belege
Mehrsprachige Anwendungen: Passerkennung, mehrsprachige Bücher
Edge-Bereitstellung: Mobile Apps mit On-Device-OCR

Unterstützt durch PaddlePaddles Deep-Learning-Ökosystem setzt PaddleOCR weiterhin Maßstäbe in OCR-Genauigkeit und Effizienz.