Open-Source-Python-Bibliothek zur Textextraktion aus Bildern

Nutzen Sie PyTesseract OCR, um gedruckten und handgeschriebenen Text mühelos aus Bildern zu extrahieren.

Was ist die PyTesseract API für Python?

PyTesseract ist eine Python-Schnittstelle für Tesseract-OCR, ein leistungsstarkes Open-Source-Tool zur Textextraktion aus Bildern. Es ermöglicht Entwicklern, gescannte Dokumente, handschriftliche Notizen und bildbasierte Texte mit minimalem Aufwand in maschinenlesbare Formate zu konvertieren. PyTesseract wird häufig in der Automatisierung, Datenextraktion, Dokumentendigitalisierung und in KI-Anwendungen mit optischer Zeichenerkennung (OCR) eingesetzt.

Die Bibliothek ist besonders nützlich für die Automatisierung der Dateneingabe, die Texterkennung aus Screenshots und die Digitalisierung gedruckter Dokumente. Mit Unterstützung für mehrere Sprachen und Bildvorverarbeitungstechniken bietet PyTesseract eine effiziente und flexible Lösung zur Textextraktion aus Bildern.

Hauptfunktionen der PyTesseract API

Bild-zu-Text-Konvertierung: Extrahiert gedruckten oder handgeschriebenen Text aus Bildern mit OCR.
Unterstützung für mehrere Sprachen: Erkennt über 100 Sprachen mit Tesseract OCR-Modellen.
Kompatibilität mit Vorverarbeitung: Funktioniert mit OpenCV und PIL zur Bildverbesserung vor der OCR.
Textextraktion aus PDF: Konvertiert gescannte PDFs in durchsuchbaren Text.
Textextraktion mit Begrenzungsrahmen: Extrahiert Text mit seiner Position im Bild.
Batch-Verarbeitung: Führt OCR effizient für mehrere Bilder aus.
Plattformübergreifende Kompatibilität: Funktioniert unter Windows, macOS und Linux.
Open Source: Kostenlos nutzbar und von der Community unterstützt.

Installation von PyTesseract

Bevor Sie PyTesseract verwenden, stellen Sie sicher, dass Tesseract-OCR auf Ihrem System installiert ist.

Installation

Installieren von PyTesseract und Abhängigkeiten


pip install pytesseract pillow opencv-python

Installation von Tesseract-OCR unter Windows:

Installation von Tesseract-OCR (Windows)


# Laden Sie Tesseract herunter von:
https://github.com/UB-Mannheim/tesseract/wiki

Installation unter Linux:

Installation von Tesseract-OCR (Linux)


sudo apt install tesseract-ocr

Codebeispiele zur Textextraktion mit PyTesseract API

Beispiel 1: Extrahieren von Text aus einem Bild

Text aus einem Bild extrahieren


import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

image = Image.open("sample.png")
text = pytesseract.image_to_string(image)

print(text)

Beispiel 2: Extrahieren von Text mit Begrenzungsrahmen

Text mit Begrenzungsrahmen extrahieren


import pytesseract
import cv2

image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)

for b in boxes.splitlines():
    b = b.split()
    x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
    cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)

cv2.imwrite("output.png", image)

Beispiel 3: Extrahieren von Text aus einem Graustufenbild

Text aus einem Graustufenbild extrahieren


import pytesseract
import cv2

image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)

print(text)