Open-Source-Python-Bibliothek zur Textextraktion aus Bildern
Nutzen Sie PyTesseract OCR, um gedruckten und handgeschriebenen Text mühelos aus Bildern zu extrahieren.
Was ist die PyTesseract API für Python?
PyTesseract ist eine Python-Schnittstelle für Tesseract-OCR, ein leistungsstarkes Open-Source-Tool zur Textextraktion aus Bildern. Es ermöglicht Entwicklern, gescannte Dokumente, handschriftliche Notizen und bildbasierte Texte mit minimalem Aufwand in maschinenlesbare Formate zu konvertieren. PyTesseract wird häufig in der Automatisierung, Datenextraktion, Dokumentendigitalisierung und in KI-Anwendungen mit optischer Zeichenerkennung (OCR) eingesetzt.
Die Bibliothek ist besonders nützlich für die Automatisierung der Dateneingabe, die Texterkennung aus Screenshots und die Digitalisierung gedruckter Dokumente. Mit Unterstützung für mehrere Sprachen und Bildvorverarbeitungstechniken bietet PyTesseract eine effiziente und flexible Lösung zur Textextraktion aus Bildern.
Hauptfunktionen der PyTesseract API
- Bild-zu-Text-Konvertierung: Extrahiert gedruckten oder handgeschriebenen Text aus Bildern mit OCR.
- Unterstützung für mehrere Sprachen: Erkennt über 100 Sprachen mit Tesseract OCR-Modellen.
- Kompatibilität mit Vorverarbeitung: Funktioniert mit OpenCV und PIL zur Bildverbesserung vor der OCR.
- Textextraktion aus PDF: Konvertiert gescannte PDFs in durchsuchbaren Text.
- Textextraktion mit Begrenzungsrahmen: Extrahiert Text mit seiner Position im Bild.
- Batch-Verarbeitung: Führt OCR effizient für mehrere Bilder aus.
- Plattformübergreifende Kompatibilität: Funktioniert unter Windows, macOS und Linux.
- Open Source: Kostenlos nutzbar und von der Community unterstützt.
Installation von PyTesseract
Bevor Sie PyTesseract verwenden, stellen Sie sicher, dass Tesseract-OCR auf Ihrem System installiert ist.
Installation
Installieren von PyTesseract und Abhängigkeiten
pip install pytesseract pillow opencv-python
Installation von Tesseract-OCR unter Windows:
Installation von Tesseract-OCR (Windows)
# Laden Sie Tesseract herunter von:
https://github.com/UB-Mannheim/tesseract/wiki
Installation unter Linux:
Installation von Tesseract-OCR (Linux)
sudo apt install tesseract-ocr
Codebeispiele zur Textextraktion mit PyTesseract API
Beispiel 1: Extrahieren von Text aus einem Bild
Text aus einem Bild extrahieren
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image = Image.open("sample.png")
text = pytesseract.image_to_string(image)
print(text)
Beispiel 2: Extrahieren von Text mit Begrenzungsrahmen
Text mit Begrenzungsrahmen extrahieren
import pytesseract
import cv2
image = cv2.imread("sample.png")
h, w, _ = image.shape
boxes = pytesseract.image_to_boxes(image)
for b in boxes.splitlines():
b = b.split()
x, y, x2, y2 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
cv2.rectangle(image, (x, h - y), (x2, h - y2), (0, 255, 0), 2)
cv2.imwrite("output.png", image)
Beispiel 3: Extrahieren von Text aus einem Graustufenbild
Text aus einem Graustufenbild extrahieren
import pytesseract
import cv2
image = cv2.imread("sample.png")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)